آموزش کتابخانه Pandas در پایتون – قسمت دوم

در پست قبلی (معرفی کتابخانه Pandas برای زبان برنامه نویسی پایتون) به معرفی کتابخانه pandas پرداختیم و به طور مختصر با قابلیتهای این کتابخانه آشنا شدیم. در بخش از وبسایت مرجع مهندسی آب میخوایم از قابلیتهای بیشتر این کتابخانه محبوب سردر بیاریم. پس تا انتهای پست همراه ما باشید.
یکی از قابلیتهای اساسی این کتابخانه، خواندن دادههای فایلهای با فرمتهای رایج اکسل و CSV است. شما به راحتی قادرید که این داده ها را به پروژه خود به صورت دیتافریم اضافه نمایید.
خواندن فایلهای Excel و CSV
زمانی که داده به صورت ساختارمند با فرمت های مذکور ذخیره شده باشند میتوان بوسیله این کتابخانه آنها را تبدیل به دیتافریمهایی کرد که بتوان عملیاتهای مدنظرمون بر روی اونها پیاده کنیم. برای این وارد کردن یک دیتاست کافیه که از دستور زیر استفاده کنیم :
برای وارد کردن فایلهای اکسلی دستور زیر :
df = pandas.read_excel("Your files Address")
و اگر فرمت فایل شما CSV بود کافیه که از دستور زیر استفاده کنید:
df = pd.read_csv("Your files Address")
بعد از وارد کردن دیتاست برای نمایش بخشی از دیتاست میتونید از دستورهای زیر استفاده کنید (قاعدتا منطقی نیست که کل دیتاست رو در IDE ببینید چون ممکنه هزاران سطر و ستون داشته باشه، پس معمولا به همون چندتای اول و یا آخر اکتفا میشه).
دستور head
به وسیله این دستور قادر خواهید بود که پنج سطر اول دیتاست خودتون رو ببینید. برای استفاده از این دستور به شکل زیر عمل می کنیم:
df.head()
خروجی دستور بالا برای دیتاست من به شکل زیر هستش:
نکتهای که وجود داره اینه که این متد به صورت پیشفرض پنج سطر رو برای ما می گردونه اما شما میتونید این مقدار رو با مقدار n تعیین کنید. مثلا من میخوام 10 سطر نمایش داده بشه کافیه که به شکل زیر بنویسم:
df.head(n=10)
دستور tail
این متد خیلی مشابه head هستش اما همونطور که از اسمش مشخصه پنج سطر انتهایی دیتاست رو به ما نشون میده (قاعدتا میتونیم با مقدار n مشابه دستور بالا این تعداد رو تغییر بدیم).
df.tail()
بررسی دادهها در pandas
شما به وسیله کتابخانه پانداز خیلی سریع قادر خواهید بود اطلاعات اولیه مربوط به دادههاتونو به دست بیارید. برای این منظور متدهایی ارائه شده که در ادامه به اونها پرداخته میشه.
دستور shape
برای اینکه اندازه دیتاست خودمون (تعداد سطر و ستونش) رو بفهمیم از این دستور به شکل زیر استفاده میکنیم:
df.shape
خروجی این دستور یک تاپل هستش که عنصر اول تعداد سطرها و عنصر دوم تعداد ستونها رو نمایش میده.
دستور info
به وسیله متد info یک اطلاعات کلی از دیتاست و ستونهاش به دست خواهید آورد. این اطلاعات شامل مواردی مثل نوع داده هر ستون، تعداد دادههای نال و همچنین حجم کلی دادهها خواهد بود. برای استفاده کافیه که دستور رو به شکل زیر استفاده کنید:
df.info()
خروجی این دستور فوق مشابه شکل زیر هستش:
دستورهای mean, median, max, min:
به طور مشخص این دستورها مربوط به شاخصهای آماری میانگین، میانه، بیشینه و کمینه هستند. این دستورات شاخصهای مذکور رو برای هر ستونی که دادههای آن از نوع عددی باشند، محاسبه خواهند کرد. نخوه استفاده از اینها هم به شکل زیر هستش:
df.mean() #محاسبه میانگین df.median() #محاسبه میانه df.max() #محاسبه ماکزیمم df.min() #محاسبه مینیمم
در قسمتهای بعدی به قابلیتهای حرفهایتر کتابخونه pandas خواهیم پرداخت.
همراه ما باشید…