مجموعه داده (Data Set)
«مجموعه داده (Data Set)» یعنی بسته ای از داده ها. معمولاً در جدول می بینیم. مثل جدول نمره های کلاس. اینجا با مجموعه داده معروف mtcars در R کار می کنیم.
آشنایی با mtcars
mtcars از مجله Motor Trend سال 1974 آمده است. هر ردیف یک ماشین است. هر ستون یک «متغیر (Variable)» است؛ یعنی چیزی قابل اندازه گیری.
دیدن کل مجموعه داده
# چاپِ کلِ mtcars
mtcars
گرفتن راهنما و توضیحات
با علامت سؤال، صفحه راهنمای شیء باز می شود. راهنما یعنی توضیحِ معنی ستون ها.
# باز کردن راهنمای mtcars
?mtcars
ابعاد و نام ستون ها
ابعاد یعنی تعداد ردیف و ستون. نام ها یعنی اسمِ هر ستون.
# کپی داده برای نظم بهتر
Data_Cars <- mtcars
# ابعاد داده: ردیف و ستون
dim(Data_Cars)
# نام ستون ها
names(Data_Cars)
نام ردیف ها
نام ردیف ها معمولاً اسم ماشین هاست. این به فهم داده کمک می کند.
Data_Cars <- mtcars
# گرفتن نامِ هر ردیف
rownames(Data_Cars)
چاپِ مقادیرِ یک متغیر
برای دسترسی به یک ستون، از «$» استفاده کن. مثل بازکردن کشوی خاص.
Data_Cars <- mtcars
# چاپ تعداد سیلندرها
Data_Cars$cyl
مرتب سازی مقادیر
مرتب سازی با sort انجام می شود. مثل چیدن کارتها از کوچک به بزرگ.
Data_Cars <- mtcars
# مرتب سازی ستونِ سیلندر
sort(Data_Cars$cyl)
خلاصه آماری سریع
تابع summary شش عدد کلیدی می دهد. مثل حداقل، میانه، و حداکثر.
Data_Cars <- mtcars
# خلاصه آماری برای همه ستون ها
summary(Data_Cars)
نکته: اگر اعداد گیج کننده اند، نگران نباش. جلوتر ساده می شوند.
برای ادامه مسیر، سر بزن به مقدمه آمار و بعد فصل های حداقل و حداکثر.
جمع بندی سریع
- مجموعه داده یعنی جدولِ داده ها.
- mtcars 32 ردیف و 11 ستون دارد.
- dim و names دید کلی می دهند.
- $ به ستون ها دسترسی می دهد.
- summary یک تصویر سریع می دهد.