فهرست سرفصل‌های Python
خانه (HOME) مقدمه (Intro) شروع کار (Get Started) ساختار نوشتاری (Syntax) دستورات (Statements) خروجی (Output) چاپ اعداد (Print Numbers) توضیحات (Comments) متغیرها (Variables) نام متغیرها (Variable Names) اختصاص چند مقدار (Assign Multiple Values) نمایش متغیرها (Output Variables) متغیرهای سراسری (Global Variables) تمرین متغیرها (Variable Exercises) نوع داده ها (Data Types) اعداد (Numbers) تبدیل نوع داده (Casting) رشته ها (Strings) برش رشته (Slicing Strings) تغییر رشته (Modify Strings) ترکیب رشته ها (Concatenate Strings) قالب بندی رشته ها (Format Strings) کاراکتر فرار (Escape Characters) متدهای رشته (String Methods) تمرین رشته ها (String Exercises) بولین ها (Booleans) عملگرها (Operators) عملگرهای حسابی (Arithmetic Operators) عملگرهای انتسابی (Assignment Operators) عملگرهای مقایسه ای (Comparison Operators) عملگرهای منطقی (Logical Operators) عملگرهای هویتی (Identity Operators) عملگرهای عضویت (Membership Operators) عملگرهای بیتی (Bitwise Operators) اولویت عملگرها (Operator Precedence) لیست ها (Lists) دسترسی به آیتم ها (Access List Items) تغییر آیتم ها (Change List Items) افزودن آیتم (Add List Items) حذف آیتم (Remove List Items) حلقه روی لیست (Loop Lists) درک لیست (List Comprehension) مرتب سازی لیست (Sort Lists) کپی لیست (Copy Lists) ادغام لیست ها (Join Lists) متدهای لیست (List Methods) تمرین لیست ها (List Exercises) تاپل ها (Tuples) دسترسی به تاپل ها (Access Tuples) به روزرسانی تاپل ها (Update Tuples) باز کردن تاپل ها (Unpack Tuples) حلقه تاپل ها (Loop Tuples) ادغام تاپل ها (Join Tuples) متدهای تاپل (Tuple Methods) تمرین تاپل ها (Tuple Exercises) مجموعه ها (Sets) دسترسی به مجموعه (Access Set Items) افزودن به مجموعه (Add Set Items) حذف از مجموعه (Remove Set Items) حلقه مجموعه ها (Loop Sets) ادغام مجموعه ها (Join Sets) فروزن ست (Frozenset) متدهای مجموعه (Set Methods) تمرین مجموعه ها (Set Exercises) دیکشنری ها (Dictionaries) دسترسی به آیتم ها (Access Items) تغییر آیتم ها (Change Items) افزودن آیتم ها (Add Items) حذف آیتم ها (Remove Items) حلقه دیکشنری ها (Loop Dictionaries) کپی دیکشنری ها (Copy Dictionaries) تو در تو (Nested Dictionaries) متدهای دیکشنری (Dictionary Methods) تمرین دیکشنری (Dictionary Exercises) if elif else شرط کوتاه (Shorthand If) عملگرهای منطقی (Logical Operators) شرط تو در تو (Nested If) pass (Pass Statement) match (Match) حلقه while (While Loops) حلقه for (For Loops) توابع (Functions) آرگومان ها (Arguments) *args / **kwargs حوزه دسترسی (Scope) دکوراتور ها (Decorators) لانبدا (Lambda) بازگشت (Recursion) جنریتور ها (Generators) بازه (Range) آرایه ها (Arrays) ایتریتورها (Iterators) ماژول ها (Modules) تاریخ ها (Dates) ریاضی (Math) جیسون (JSON) عبارات منظم (RegEx) مدیر بسته ها (PIP) try...except قالب بندی رشته (String Formatting) None ورودی کاربر (User Input) محیط مجازی (VirtualEnv) شیءگرایی (OOP) کلاس ها/اشیا (Classes/Objects) متد init (init Method) پارامتر self (self Parameter) خصوصیات کلاس (Class Properties) متدهای کلاس (Class Methods) وراثت (Inheritance) چندریختی (Polymorphism) کپسوله سازی (Encapsulation) کلاس های داخلی (Inner Classes) کار با فایل (File Handling) خواندن فایل (Read Files) نوشتن/ایجاد فایل (Write/Create Files) حذف فایل (Delete Files) آموزش SciPy (SciPy Tutorial) Matplotlib مقدمه (Matplotlib Intro) شروع با Matplotlib (Matplotlib Get Started) Pyplot (Matplotlib Pyplot) نمودارسازی (Matplotlib Plotting) نشانگرها (Matplotlib Markers) خط (Matplotlib Line) برچسب ها (Matplotlib Labels) شبکه (Matplotlib Grid) زیرنمودار (Matplotlib Subplot) پراکندگی (Matplotlib Scatter) میله ای (Matplotlib Bars) هیستوگرام (Matplotlib Histograms) دایره ای (Matplotlib Pie Charts) یادگیری ماشین: شروع (Getting Started) میانگین/میانه/نما (Mean Median Mode) انحراف معیار (Standard Deviation) صدک (Percentile) توزیع داده (Data Distribution) توزیع نرمال (Normal Data Distribution) نمودار پراکندگی (Scatter Plot) رگرسیون خطی (Linear Regression) رگرسیون چندجمله ای (Polynomial Regression) رگرسیون چندمتغیره (Multiple Regression) مقیاس بندی (Scale) آموزش/آزمون (Train/Test) درخت تصمیم (Decision Tree) ماتریس اغتشاش (Confusion Matrix) خوشه بندی سلسله مراتبی (Hierarchical Clustering) رگرسیون لجستیک (Logistic Regression) جست وجوی شبکه ای (Grid Search) پیش پردازش داده های دسته ای (Categorical Data) K-means بگینگ (Bootstrap Aggregation) اعتبارسنجی متقابل (Cross Validation) منحنی AUC-ROC (AUC-ROC Curve) KNN (K-nearest neighbors) DSA: معرفی (Python DSA) لیست ها و آرایه ها (Lists and Arrays) پشته ها (Stacks) صف ها (Queues) لیست های پیوندی (Linked Lists) هش تیبل ها (Hash Tables) درخت ها (Trees) درخت های دودویی (Binary Trees) BST (Binary Search Trees) درخت های AVL (AVL Trees) گراف ها (Graphs) جستجوی خطی (Linear Search) جستجوی دودویی (Binary Search) مرتب سازی حبابی (Bubble Sort) مرتب سازی انتخابی (Selection Sort) مرتب سازی درج (Insertion Sort) مرتب سازی سریع (Quick Sort) مرتب سازی شمارشی (Counting Sort) مرتب سازی رادیکس (Radix Sort) مرتب سازی ادغامی (Merge Sort) MySQL: شروع (MySQL Get Started) ایجاد پایگاه داده (Create Database) ایجاد جدول (Create Table) درج رکورد (Insert) انتخاب (Select) شرط Where مرتب سازی (Order By) حذف (Delete) حذف جدول (Drop Table) به روزرسانی (Update) Limit Join MongoDB: شروع (Get Started) ایجاد پایگاه داده (Create DB) ایجاد کالکشن (Collection) درج (Insert) پیدا کردن (Find) کوئری (Query) مرتب سازی (Sort) حذف (Delete) حذف کالکشن (Drop Collection) به روزرسانی (Update) Limit مرجع: مرور کلی (Overview) توابع درون ساخته (Built-in Functions) متدهای رشته (String Methods) متدهای لیست (List Methods) متدهای دیکشنری (Dictionary Methods) متدهای تاپل (Tuple Methods) متدهای مجموعه (Set Methods) متدهای فایل (File Methods) کلیدواژه ها (Keywords) استثناها (Exceptions) واژه نامه (Glossary) مرجع ماژول ها (Built-in Modules) ماژول random (Random Module) ماژول requests (Requests Module) ماژول statistics (Statistics Module) ماژول math (Math Module) ماژول cmath (cMath Module) حذف موارد تکراری لیست (Remove List Duplicates) برعکس کردن رشته (Reverse a String) جمع دو عدد (Add Two Numbers)
PYTHON

Python — اعتبارسنجی متقابل (Cross Validation)

آخرین بروزرسانی: 1404/08/09

اعتبارسنجی متقابل (Cross Validation)

اعتبارسنجی متقابل یعنی سنجش مدل روی تکه های متفاوت داده. هدف، جلوگیری از نشت اطلاعات و بیش برازش است. با این کار، دقت روی داده دیده نشده بهتر سنجیده می شود.

شروع کار با داده Iris

اول داده را از sklearn می گیریم. X ویژگی است و y برچسب.

from sklearn import datasets

X, y = datasets.load_iris(return_X_y = True)

مشاهده در ادیتور

K-Fold

در K-Fold، داده به k بخش تقسیم می شود. مدل روی k-1 بخش آموزش می بیند. سپس روی بخش باقیمانده ارزیابی می شود.

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold, cross_val_score

X, y = datasets.load_iris(return_X_y = True)

clf = DecisionTreeClassifier(random_state = 42)

k_folds = KFold(n_splits = 5)

scores = cross_val_score(clf, X, y, cv = k_folds)

print("Cross Validation Scores:", scores)
print("Average CV Score:", scores.mean())
print("Number of CV Scores used in Average:", len(scores))

مشاهده در ادیتور

Stratified K-Fold

اگر کلاس ها نامتوازن باشند، باید نسبت کلاس ها حفظ شود. Stratified K-Fold همین کار را انجام می دهد.

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import StratifiedKFold, cross_val_score

X, y = datasets.load_iris(return_X_y = True)

clf = DecisionTreeClassifier(random_state = 42)

sk_folds = StratifiedKFold(n_splits = 5)

scores = cross_val_score(clf, X, y, cv = sk_folds)

print("Cross Validation Scores:", scores)
print("Average CV Score:", scores.mean())
print("Number of CV Scores used in Average:", len(scores))

مشاهده در ادیتور

Leave-One-Out (LOO)

در LOO، هر بار یک نمونه برای ارزیابی کنار می رود. باقی نمونه ها برای آموزش هستند. این روش پرهزینه اما دقیق است.

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import LeaveOneOut, cross_val_score

X, y = datasets.load_iris(return_X_y = True)

clf = DecisionTreeClassifier(random_state = 42)

loo = LeaveOneOut()

scores = cross_val_score(clf, X, y, cv = loo)

print("Cross Validation Scores:", scores)
print("Average CV Score:", scores.mean())
print("Number of CV Scores used in Average:", len(scores))

مشاهده در ادیتور

Leave-P-Out (LPO)

در LPO، به جای یک نمونه، p نمونه کنار می ماند. سپس آموزش و ارزیابی انجام می شود.

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import LeavePOut, cross_val_score

X, y = datasets.load_iris(return_X_y = True)

clf = DecisionTreeClassifier(random_state = 42)

lpo = LeavePOut(p = 2)

scores = cross_val_score(clf, X, y, cv = lpo)

print("Cross Validation Scores:", scores)
print("Average CV Score:", scores.mean())
print("Number of CV Scores used in Average:", len(scores))

مشاهده در ادیتور

Shuffle Split

در ShuffleSplit درصدی از داده کاملاً کنار می ماند. اندازه آموزش، آزمون و تعداد تکرار را تعیین می کنیم.

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import ShuffleSplit, cross_val_score

X, y = datasets.load_iris(return_X_y = True)

clf = DecisionTreeClassifier(random_state = 42)

ss = ShuffleSplit(train_size = 0.6, test_size = 0.3, n_splits = 5)

scores = cross_val_score(clf, X, y, cv = ss)

print("Cross Validation Scores:", scores)
print("Average CV Score:", scores.mean())
print("Number of CV Scores used in Average:", len(scores))

مشاهده در ادیتور

جمع بندی سریع

  • K-Fold معیار مطمئن تری می دهد.
  • Stratified نسبت کلاس ها را حفظ می کند.
  • LOO دقیق اما کند است.
  • LPO نسخه کلی ترِ LOO است.
  • ShuffleSplit انعطاف بیشتری برای درصدها می دهد.

نکته: برای یافتن پارامترهای خوب، از جست وجوی شبکه ای کمک بگیر. همچنین اثر تجمیع را در بگینگ ببین.