توزیع داده (Data Distribution)
«توزیع داده (Data Distribution)» یعنی پخش شدن مقادیر. با دیدن توزیع، الگوها را می بینیم. مثل دیدن نمره های کلاس روی نمودار.
ساخت داده آزمایشی بزرگ
در شروع پروژه، داده واقعی کم است. پس با NumPy داده تصادفی می سازیم.
مثال: 250 عدد تصادفی بین 0 تا 5
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
نمایش با هیستوگرام (Histogram)
برای دیدن شکل توزیع، از «هیستوگرام (Histogram)» استفاده کن. هر میله یک بازه را نشان می دهد.
مثال: رسم هیستوگرام با 5 میله
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
نکته: اعداد تصادفی اند. پس نتیجه دقیق شما فرق می کند.
توزیع داده بزرگ تر
اکنون داده را خیلی بزرگ می کنیم تا الگو واضح تر شود.
مثال: 100000 عدد و 100 میله
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()
گام های عملی سریع
- اندازه داده و بازه ها را تعیین کن.
- با
numpy.random.uniformداده بساز. - با
plt.histنمودار را رسم کن.
برای تکمیل موضوع، صفحه انحراف معیار و صدک را ببین. سپس درباره توزیع داده در حالت نرمال بخوان.
جمع بندی سریع
- توزیع داده شکل پخش مقادیر است.
- NumPy برای ساخت داده تصادفی عالی است.
- هیستوگرام نمایش ساده توزیع است.
- داده بیشتر، الگو را واضح تر می کند.