نوشتن نظر کلیک کنید

Python – آموزش/آزمون (Train/Test)

آخرین بروزرسانی: ۲۶ شهریور ۱۴۰۳

آموزش/آزمون (Train/Test)

در یادگیری ماشین، ما مدل‌هایی برای پیش‌بینی نتایج برخی رویدادها می‌سازیم. برای اندازه‌گیری دقت مدل، از روش آموزش/آزمون استفاده می‌کنیم.

آموزش/آزمون چیست؟ آموزش/آزمون روشی است برای اندازه‌گیری دقت مدل. این روش به دلیل تقسیم داده‌ها به دو مجموعه: مجموعه آموزشی و مجموعه آزمون، به این نام معروف است.

80% برای آموزش: مدل با استفاده از داده‌های آموزشی ساخته می‌شود.
20% برای آزمون: مدل با استفاده از داده‌های آزمون تست می‌شود.

آموزش مدل به معنای ساخت مدل است، و آزمون مدل به معنای تست دقت مدل است.

شروع با یک داده

با مجموعه داده‌ای که می‌خواهید تست کنید شروع کنید. به عنوان مثال، داده‌ای که رفتار خرید 100 مشتری را در یک فروشگاه نشان می‌دهد.

مثال:

import numpy
import matplotlib.pyplot as plt
numpy.random.seed(2)

x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x

plt.scatter(x, y)
plt.show()

نتیجه: محور x نشان‌دهنده تعداد دقیقه‌ها قبل از خرید است و محور y نشان‌دهنده مقدار پول خرج شده در خرید است.

تقسیم به آموزش/آزمون

مجموعه آموزشی باید 80% از داده‌های اصلی را به صورت تصادفی انتخاب کند. مجموعه آزمون باید 20% باقی‌مانده باشد.

train_x = x[:80]
train_y = y[:80]

test_x = x[80:]
test_y = y[80:]

نمایش مجموعه آموزشی

برای نمایش مجموعه آموزشی، می‌توانید همان نمودار پراکندگی را با مجموعه آموزشی نمایش دهید.

مثال:

plt.scatter(train_x, train_y)
plt.show()

نتیجه: شبیه مجموعه داده اصلی به نظر می‌رسد، بنابراین انتخاب مناسبی به نظر می‌رسد.

نمایش مجموعه آزمون

برای اطمینان از اینکه مجموعه آزمون کاملاً متفاوت نیست، می‌توانیم نگاهی به مجموعه آزمون بیندازیم.

مثال:

plt.scatter(test_x, test_y)
plt.show()

نتیجه: مجموعه آزمون نیز شبیه داده‌های اصلی به نظر می‌رسد.

برازش مجموعه داده

ما می‌خواهیم ببینیم مجموعه داده چگونه به مدل‌های مختلف متناسب است. به عنوان مثال، ممکن است متناسب‌ترین مدل برای داده‌های ما یک رگرسیون چندجمله‌ای باشد.

مثال:

import numpy
import matplotlib.pyplot as plt
numpy.random.seed(2)

x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x

train_x = x[:80]
train_y = y[:80]

test_x = x[80:]
test_y = y[80:]

mymodel = numpy.poly1d(numpy.polyfit(train_x, train_y, 4))

myline = numpy.linspace(0, 6, 100)

plt.scatter(train_x, train_y)
plt.plot(myline, mymodel(myline))
plt.show()

نتیجه: خط رگرسیون چندجمله‌ای نشان می‌دهد که مدل با داده‌های آموزشی مطابقت خوبی دارد، هرچند پیش‌بینی مقادیر خارج از محدوده داده‌ها ممکن است نتایج عجیبی به همراه داشته باشد.

معیار R²

معیار R² یا ضریب تعیین، رابطه بین محور x و محور y را اندازه‌گیری می‌کند و مقدار آن از 0 تا 1 متغیر است، که 0 به معنای عدم رابطه و 1 به معنای رابطه کامل است.

ماژول sklearn متدی به نام r2_score() دارد که به ما در یافتن این رابطه کمک می‌کند.

مثال:

import numpy
from sklearn.metrics import r2_score
numpy.random.seed(2)

x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x

train_x = x[:80]
train_y = y[:80]

test_x = x[80:]
test_y = y[80:]

mymodel = numpy.poly1d(numpy.polyfit(train_x, train_y, 4))

r2 = r2_score(train_y, mymodel(train_x))

print(r2)

نتیجه: مقدار 0.799 نشان می‌دهد که رابطه بین داده‌های آموزشی و مدل خوب است.

آزمون با مجموعه آزمون

حالا که مدل ما با داده‌های آموزشی خوب عمل کرده است، می‌خواهیم مدل را با داده‌های آزمون نیز تست کنیم تا ببینیم آیا نتایج مشابهی به دست می‌آید.

مثال:

import numpy
from sklearn.metrics import r2_score
numpy.random.seed(2)

x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x

train_x = x[:80]
train_y = y[:80]

test_x = x[80:]
test_y = y[80:]

mymodel = numpy.poly1d(numpy.polyfit(train_x, train_y, 4))

r2 = r2_score(test_y, mymodel(test_x))

print(r2)

نتیجه: مقدار 0.809 نشان می‌دهد که مدل با مجموعه آزمون نیز خوب تطابق دارد و می‌توانیم از مدل برای پیش‌بینی مقادیر آینده استفاده کنیم.

پیش‌بینی مقادیر

حالا که مطمئن شدیم مدل ما خوب است، می‌توانیم شروع به پیش‌بینی مقادیر جدید کنیم.

مثال:

برای پیش‌بینی مقدار پولی که مشتری با اقامت 5 دقیقه‌ای در فروشگاه خرج می‌کند:

print(mymodel(5))

نتیجه: پیش‌بینی کرده‌ایم که مشتری 22.88 دلار خرج می‌کند، که با نمودار همخوانی دارد.

Python – آموزش/آزمون (Train/Test)

آموزش/آزمون (Train/Test)

شروع با یک داده

تقسیم به آموزش/آزمون

نمایش مجموعه آموزشی

نمایش مجموعه آزمون

برازش مجموعه داده

معیار R²

آزمون با مجموعه آزمون

پیش‌بینی مقادیر

پست های مرتبط

مطالعه این پست ها رو از دست ندین!

نظرات

سوالات و نظراتتون رو با ما به اشتراک بذارید

Python – آموزش/آزمون (Train/Test)

آموزش/آزمون (Train/Test)

شروع با یک داده

تقسیم به آموزش/آزمون

نمایش مجموعه آموزشی

نمایش مجموعه آزمون

برازش مجموعه داده

معیار R²

آزمون با مجموعه آزمون

پیش‌بینی مقادیر

پست های مرتبط

مطالعه این پست ها رو از دست ندین!

JavaScript – تاریخ‌ها (Dates)

JavaScript – آرایه‌های ثابت (Array Const)

JavaScript – تکرار آرایه‌ها (Array Iteration)

نظرات

سوالات و نظراتتون رو با ما به اشتراک بذارید