یادگیری ماشین: شروع (Getting Started)
«یادگیری ماشین (Machine Learning)» یعنی کامپیوتر از «داده (Data)» و «آمار (Statistics)» یاد بگیرد. سپس با این یادگیری، «پیش بینی (Prediction)» انجام دهد. این مسیر، یک قدم به سمت «هوش مصنوعی (AI)» است.
از کجا شروع کنیم؟
برمی گردیم به ریاضی و آمار. سپس با ماژول های پایتون جواب می گیریم. بعد، توابعی می سازیم که با یادگرفته ها، خروجی را پیش بینی کنند.
مجموعه داده (Data Set)
برای کامپیوتر، مجموعه داده هر جمعی از داده است؛ از یک آرایه تا یک دیتابیس کامل. مثال آرایه:
data = [99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86]
print(data)
در دیتابیس نمونه، با نگاه سریع می بینیم سفید پرطرفدار است. همچنین قدیمی ترین خودرو 17 سال سن دارد. هدف بزرگ تر چیست؟ پیش بینی «AutoPass» با تکیه بر بقیه ستون ها.
انواع داده (Data Types)
برای تحلیل درست، باید نوع داده را بشناسیم. سه گروه اصلی داریم:
- عددی (Numerical)؛ خود عددها.
- دسته ای (Categorical)؛ مثل رنگ یا بله/خیر.
- ترتیبی (Ordinal)؛ دسته ایِ قابل مقایسه، مثل نمره A بهتر از B.
عددی دو زیرگروه دارد:
- گسسته (Discrete): قابل شمارش؛ مثلا تعداد خودروهای عبوری.
- پیوسته (Continuous): قابل اندازه گیری؛ مثلا قیمت یا اندازه یک کالا.
نکته: با شناخت نوع داده، روش تحلیل مناسب را انتخاب می کنیم.
گام های عملی سریع
- یک مجموعه داده کوچک آماده کن.
- نوع داده ها را مشخص کن.
- چند عدد مهم آماری را بررسی کن.
- ایده پیش بینی ساده مطرح کن.
جمع بندی سریع
- ML از داده و آمار یاد می گیرد.
- Data Set می تواند آرایه یا دیتابیس باشد.
- نوع داده مسیر تحلیل را تعیین می کند.
- عددی گسسته و پیوسته دارد.
- ترتیبی قابل مقایسه است.
برای تصویرسازی داده، نمودار دایره ای Matplotlib و هیستوگرام Matplotlib را ببین. برای ادامه مسیر یادگیری ماشین به فصل میانگین، میانه، نما برو.