فهرست سرفصل‌های Python
خانه (HOME) مقدمه (Intro) شروع کار (Get Started) ساختار نوشتاری (Syntax) دستورات (Statements) خروجی (Output) چاپ اعداد (Print Numbers) توضیحات (Comments) متغیرها (Variables) نام متغیرها (Variable Names) اختصاص چند مقدار (Assign Multiple Values) نمایش متغیرها (Output Variables) متغیرهای سراسری (Global Variables) تمرین متغیرها (Variable Exercises) نوع داده ها (Data Types) اعداد (Numbers) تبدیل نوع داده (Casting) رشته ها (Strings) برش رشته (Slicing Strings) تغییر رشته (Modify Strings) ترکیب رشته ها (Concatenate Strings) قالب بندی رشته ها (Format Strings) کاراکتر فرار (Escape Characters) متدهای رشته (String Methods) تمرین رشته ها (String Exercises) بولین ها (Booleans) عملگرها (Operators) عملگرهای حسابی (Arithmetic Operators) عملگرهای انتسابی (Assignment Operators) عملگرهای مقایسه ای (Comparison Operators) عملگرهای منطقی (Logical Operators) عملگرهای هویتی (Identity Operators) عملگرهای عضویت (Membership Operators) عملگرهای بیتی (Bitwise Operators) اولویت عملگرها (Operator Precedence) لیست ها (Lists) دسترسی به آیتم ها (Access List Items) تغییر آیتم ها (Change List Items) افزودن آیتم (Add List Items) حذف آیتم (Remove List Items) حلقه روی لیست (Loop Lists) درک لیست (List Comprehension) مرتب سازی لیست (Sort Lists) کپی لیست (Copy Lists) ادغام لیست ها (Join Lists) متدهای لیست (List Methods) تمرین لیست ها (List Exercises) تاپل ها (Tuples) دسترسی به تاپل ها (Access Tuples) به روزرسانی تاپل ها (Update Tuples) باز کردن تاپل ها (Unpack Tuples) حلقه تاپل ها (Loop Tuples) ادغام تاپل ها (Join Tuples) متدهای تاپل (Tuple Methods) تمرین تاپل ها (Tuple Exercises) مجموعه ها (Sets) دسترسی به مجموعه (Access Set Items) افزودن به مجموعه (Add Set Items) حذف از مجموعه (Remove Set Items) حلقه مجموعه ها (Loop Sets) ادغام مجموعه ها (Join Sets) فروزن ست (Frozenset) متدهای مجموعه (Set Methods) تمرین مجموعه ها (Set Exercises) دیکشنری ها (Dictionaries) دسترسی به آیتم ها (Access Items) تغییر آیتم ها (Change Items) افزودن آیتم ها (Add Items) حذف آیتم ها (Remove Items) حلقه دیکشنری ها (Loop Dictionaries) کپی دیکشنری ها (Copy Dictionaries) تو در تو (Nested Dictionaries) متدهای دیکشنری (Dictionary Methods) تمرین دیکشنری (Dictionary Exercises) if elif else شرط کوتاه (Shorthand If) عملگرهای منطقی (Logical Operators) شرط تو در تو (Nested If) pass (Pass Statement) match (Match) حلقه while (While Loops) حلقه for (For Loops) توابع (Functions) آرگومان ها (Arguments) *args / **kwargs حوزه دسترسی (Scope) دکوراتور ها (Decorators) لانبدا (Lambda) بازگشت (Recursion) جنریتور ها (Generators) بازه (Range) آرایه ها (Arrays) ایتریتورها (Iterators) ماژول ها (Modules) تاریخ ها (Dates) ریاضی (Math) جیسون (JSON) عبارات منظم (RegEx) مدیر بسته ها (PIP) try...except قالب بندی رشته (String Formatting) None ورودی کاربر (User Input) محیط مجازی (VirtualEnv) شیءگرایی (OOP) کلاس ها/اشیا (Classes/Objects) متد init (init Method) پارامتر self (self Parameter) خصوصیات کلاس (Class Properties) متدهای کلاس (Class Methods) وراثت (Inheritance) چندریختی (Polymorphism) کپسوله سازی (Encapsulation) کلاس های داخلی (Inner Classes) کار با فایل (File Handling) خواندن فایل (Read Files) نوشتن/ایجاد فایل (Write/Create Files) حذف فایل (Delete Files) آموزش SciPy (SciPy Tutorial) Matplotlib مقدمه (Matplotlib Intro) شروع با Matplotlib (Matplotlib Get Started) Pyplot (Matplotlib Pyplot) نمودارسازی (Matplotlib Plotting) نشانگرها (Matplotlib Markers) خط (Matplotlib Line) برچسب ها (Matplotlib Labels) شبکه (Matplotlib Grid) زیرنمودار (Matplotlib Subplot) پراکندگی (Matplotlib Scatter) میله ای (Matplotlib Bars) هیستوگرام (Matplotlib Histograms) دایره ای (Matplotlib Pie Charts) یادگیری ماشین: شروع (Getting Started) میانگین/میانه/نما (Mean Median Mode) انحراف معیار (Standard Deviation) صدک (Percentile) توزیع داده (Data Distribution) توزیع نرمال (Normal Data Distribution) نمودار پراکندگی (Scatter Plot) رگرسیون خطی (Linear Regression) رگرسیون چندجمله ای (Polynomial Regression) رگرسیون چندمتغیره (Multiple Regression) مقیاس بندی (Scale) آموزش/آزمون (Train/Test) درخت تصمیم (Decision Tree) ماتریس اغتشاش (Confusion Matrix) خوشه بندی سلسله مراتبی (Hierarchical Clustering) رگرسیون لجستیک (Logistic Regression) جست وجوی شبکه ای (Grid Search) پیش پردازش داده های دسته ای (Categorical Data) K-means بگینگ (Bootstrap Aggregation) اعتبارسنجی متقابل (Cross Validation) منحنی AUC-ROC (AUC-ROC Curve) KNN (K-nearest neighbors) DSA: معرفی (Python DSA) لیست ها و آرایه ها (Lists and Arrays) پشته ها (Stacks) صف ها (Queues) لیست های پیوندی (Linked Lists) هش تیبل ها (Hash Tables) درخت ها (Trees) درخت های دودویی (Binary Trees) BST (Binary Search Trees) درخت های AVL (AVL Trees) گراف ها (Graphs) جستجوی خطی (Linear Search) جستجوی دودویی (Binary Search) مرتب سازی حبابی (Bubble Sort) مرتب سازی انتخابی (Selection Sort) مرتب سازی درج (Insertion Sort) مرتب سازی سریع (Quick Sort) مرتب سازی شمارشی (Counting Sort) مرتب سازی رادیکس (Radix Sort) مرتب سازی ادغامی (Merge Sort) MySQL: شروع (MySQL Get Started) ایجاد پایگاه داده (Create Database) ایجاد جدول (Create Table) درج رکورد (Insert) انتخاب (Select) شرط Where مرتب سازی (Order By) حذف (Delete) حذف جدول (Drop Table) به روزرسانی (Update) Limit Join MongoDB: شروع (Get Started) ایجاد پایگاه داده (Create DB) ایجاد کالکشن (Collection) درج (Insert) پیدا کردن (Find) کوئری (Query) مرتب سازی (Sort) حذف (Delete) حذف کالکشن (Drop Collection) به روزرسانی (Update) Limit مرجع: مرور کلی (Overview) توابع درون ساخته (Built-in Functions) متدهای رشته (String Methods) متدهای لیست (List Methods) متدهای دیکشنری (Dictionary Methods) متدهای تاپل (Tuple Methods) متدهای مجموعه (Set Methods) متدهای فایل (File Methods) کلیدواژه ها (Keywords) استثناها (Exceptions) واژه نامه (Glossary) مرجع ماژول ها (Built-in Modules) ماژول random (Random Module) ماژول requests (Requests Module) ماژول statistics (Statistics Module) ماژول math (Math Module) ماژول cmath (cMath Module) حذف موارد تکراری لیست (Remove List Duplicates) برعکس کردن رشته (Reverse a String) جمع دو عدد (Add Two Numbers)
PYTHON

Python — پیش پردازش داده های دسته ای (Categorical Data)

آخرین بروزرسانی: 1404/08/09

پیش پردازش داده های دسته ای (Categorical Data)

وقتی داده «دسته ای (Categorical)» و متنی باشد، مدل ها مشکل دارند. چون بیشتر مدل ها فقط عدد می پذیرند. پس باید این متن ها را به عدد تبدیل کنیم، نه اینکه حذفشان کنیم.

داده های دسته ای

مثلا ستون «Car» برند ماشین است و متن دارد. اما مدل عدد می خواهد. بنابراین اول داده را می خوانیم و جدول را می بینیم.

import pandas as pd

cars = pd.read_csv('data.csv')
print(cars.to_string())

مشاهده در ادیتور

در درس رگرسیون چندگانه، از حجم موتور و وزن برای پیش بینی CO2 استفاده شد. اما برند و مدل حذف شدند. این اطلاعات می توانند کمک کنند.

وان هات کدینگ (One Hot Encoding)

برای تبدیل متن به عدد، برای هر برند یک ستون می سازیم. وجود برند می شود 1، نبودن می شود 0. این کار «وان هات کدینگ» است.

import pandas as pd

cars = pd.read_csv('data.csv')
ohe_cars = pd.get_dummies(cars[['Car']])

print(ohe_cars.to_string())

مشاهده در ادیتور

اکنون برای هر برند یک ستون داریم. مقدار 1 یعنی آن ردیف همان برند است.

پیش بینی CO2 با ویژگی های جدید

ستون های وان هات را کنار «Volume» و «Weight» می گذاریم. سپس رگرسیون خطی را آموزش می دهیم و CO2 را پیش بینی می کنیم.

import pandas
from sklearn import linear_model

cars = pandas.read_csv("data.csv")
ohe_cars = pandas.get_dummies(cars[['Car']])

X = pandas.concat([cars[['Volume', 'Weight']], ohe_cars], axis = 1)
y = cars['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

# پیش بینی CO2 برای VW با وزن 2300 و حجم 1300
predictedCO2 = regr.predict([[2300, 1300, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0]])

print(predictedCO2)

مشاهده در ادیتور

اکنون یک ضریب برای حجم، وزن و هر برند داریم. بنابراین مدل از برند نیز بهره می گیرد.

دامی سازی کم هزینه (Dummifying)

لازم نیست به تعداد همه گروه ها ستون بسازیم. می توانیم یکی کمتر بسازیم و اطلاعات حفظ شود. مثلا رنگ ها:

import pandas as pd

colors = pd.DataFrame({'color': ['blue', 'red']})
print(colors)

مشاهده در ادیتور

با drop_first فقط یک ستون می سازیم. 1 یعنی «red»، و 0 یعنی «blue».

import pandas as pd

colors = pd.DataFrame({'color': ['blue', 'red']})
dummies = pd.get_dummies(colors, drop_first = True)

print(dummies)

مشاهده در ادیتور

اگر سه رنگ داشته باشیم، دو ستون کافی است. حالت پایه حذف می شود.

import pandas as pd

colors = pd.DataFrame({'color': ['blue', 'red', 'green']})
dummies = pd.get_dummies(colors, drop_first = True)
dummies['color'] = colors['color']

print(dummies)

مشاهده در ادیتور

گام های عملی

  1. CSV را بخوان و جدول را بررسی کن.
  2. ستون های متنی را با get_dummies تبدیل کن.
  3. X را با عددی ها و دامی ها بساز.
  4. y را انتخاب کن و مدل را fit کن.
  5. پیش بینی کن و خطا را بسنج.

جمع بندی سریع

  • متن به عدد نیاز دارد؛ get_dummies کمک می کند.
  • وان هات کدینگ برای هر گروه یک ستون می سازد.
  • با drop_first یک ستون کمتر می سازیم.
  • ترکیب ویژگی ها، پیش بینی CO2 را بهتر می کند.

برای مرور جست وجوی شبکه ای را ببین. همچنین کِی مینز مرحله بعد است. بازگشت به پیش پردازش داده های دسته ای.