معرفی (Intro)
در این صفحه یک معرفی pandas خیلی ساده داریم. معرفی pandas کمک می کند بدانی این کتابخانه برای کار با مجموعه های داده ساخته شده و چرا در علم داده مهم است.
معرفی pandas و کاربرد آن
در منبع گفته شده pandas یک کتابخانه (Library) پایتون برای کار با مجموعه داده هاست. یعنی به پایتون قدرت می دهد با جدول ها و فایل های پر از اطلاعات مثل نمره ها یا فروش ها کار کند.
pandas توابعی برای تحلیل، پاک سازی، جست وجو و دست کاری داده دارد. تحلیل یعنی از داده نتیجه بگیریم. پاک سازی یعنی داده های خراب یا خالی را درست کنیم یا کنار بگذاریم.
اسم pandas از «Panel Data» و «Python Data Analysis» گرفته شده است. در منبع نوشته شده که این کتابخانه را Wes McKinney در سال 2008 ساخته است.
اگر می خواهی تصویر کلی تری از pandas ببینی، می توانی بعداً به صفحه خانه pandas در UnderDevelops سر بزنی.
چرا از pandas استفاده می کنیم؟
در منبع نوشته شده pandas به ما کمک می کند داده های بزرگ را تحلیل کنیم. یعنی می توانیم روی حجم زیادی داده حساب و کتاب کنیم و بر اساس نظریه های آماری نتیجه بگیریم.
pandas می تواند مجموعه داده های شلوغ و نامرتب را تمیز کند. بعد آن ها را قابل خواندن و مرتبط با مسئله ما می کند. داده مرتبط یعنی داده ای که به سؤال ما جواب می دهد.
اصطلاح علم داده (Data Science): در منبع توضیح داده شده که علم داده شاخه ای از علوم کامپیوتر است که درباره ذخیره، استفاده و تحلیل داده برای به دست آوردن اطلاعات از آن صحبت می کند.
pandas چه کارهایی می تواند انجام دهد؟
در منبع مثال هایی از کارهایی که pandas می تواند انجام دهد آورده شده است. این کارها شبیه سؤال هایی هستند که از یک جدول بزرگ می پرسی.
- آیا بین دو یا چند ستون، همبستگی (Correlation) وجود دارد؟
- میانگین (Average) یک ستون چقدر است؟
- بالاترین مقدار یک ستون چند است؟
- کمترین مقدار یک ستون چند است؟
در منبع آمده که pandas می تواند سطرهایی را حذف کند که مهم نیستند یا مقدار اشتباه دارند. مثلاً سطرهایی با مقدار خالی یا NULL. به این کار پاک سازی داده (Data Cleaning) می گویند.
کد منبع pandas کجاست؟
در منبع نوشته شده کد منبع pandas در یک مخزن (Repository) روی سایت GitHub قرار دارد. مخزن یعنی جایی که فایل های کد یک پروژه نگهداری می شود.
می توانی آدرس مخزن را در این لینک ببینی: مخزن رسمی pandas در GitHub. همان لینک در متن منبع هم آمده است.
اصطلاح GitHub: در منبع گفته شده GitHub این امکان را می دهد که افراد زیادی روی یک کد مشترک باهم کار کنند.
بعد از این معرفی pandas، برای یادگیری قدم به قدم می توانی به صفحه شروع کار با pandas در UnderDevelops بروی.
جمع بندی سریع
- pandas یک کتابخانه پایتون برای کار با مجموعه های داده است.
- این کتابخانه برای تحلیل، پاک سازی و بررسی داده های بزرگ استفاده می شود.
- می توانیم میانگین، بیشترین، کمترین و همبستگی ستون ها را به راحتی پیدا کنیم.
- pandas می تواند سطرهای خالی یا اشتباه را حذف کند و داده را تمیز کند.
- کد منبع pandas در GitHub و به صورت عمومی در دسترس است.