پانداس (Pandas) چیست؟
آشنایی با کتابخانه pandas
کتابخانه pandas کتابخانه ای بسیار بزرگ و محبوب برای زبان پایتون است. این کتابخانه مهم ترین ابزار تحلیل گران داده و data science می باشد اما در عین حال می تواند استفاده های زیادی برای افراد عادی نیز داشته باشد. اگر می خواهید وارد حوزه علوم داده و تحلیل آن شوید، یادگیری pandas یک امر ضروری است و امکان ندارد که بتوانید از یادگیری آن سر باز بزنید. همچنین اگر شما در فضای تحلیل داده فعالیت نمی کنید و به عنوان یک توسعه دهنده عادی پایتون نیاز به استفاده از pandas دارید، این مقاله به شما کمک بزرگی خواهد کرد.
کاربردهای کتابخانه Pandas چیست؟
کاربردهای مختلف کتابخانه pandas آنچنان زیاد است که لیست کردن ناتوانی هایش بسیار راحت تر از لیست کردن توانایی هایش می باشد! شما می توانید با استفاده از pandas داده های خود را تمیز کرده و مرتب کنید. این ابزار با ابزارهای مشهور دیگر مانند matplotlib نیز کار می کند تا بتواند data visualization (بصری سازی داده) را نیز انجام دهد.
به طور مثال فرض کنید که می خواهید داده های ذخیره شده در یک فایل CSV را تحلیل کنید. pandas داده های درون این فایل CSV را خوانده و به صورت یک DataFrame در می آورد که در عمل یک جدول است و سپس به شما اجازه می دهد عملیات مختلفی را روی آن انجام دهید:
- انجام محاسبات آماری روی داده ها مانند محاسبه بزرگترین و کوچکترین مقدار، محاسبه میانگین داده ها، محاسبه صدک ها و الی آخر.
- نگاهی به نحوه توزیع داده ها در یک ستون
- بررسی احتمال وابسته بودن ستون ها به یکدیگر
- پاک سازی داده ها: مثلا حذف کردن ردیف هایی که مقادیر ناقص دارند و یا حذف کامل بخش هایی که مقداری ندارند و خالی هستند، یا مرتب سازی یا فیلتر کردن ستون های خاص بر اساس شرط هایی خاص و الی آخر.
- همکاری با پکیج های بزرگ دیگر مانند Matplotlib برای بصری سازی داده ها: تولید نمودار های مختلف، هیستوگرام ها و الی آخر.
- ذخیره سازی داده های پاک سازی شده در یک فایل (CSV یا Excel و …)
قبل از اینکه بخواهید دوره های یادگیری pandas را بگذرانید و وارد مباحث پیشرفته شوید، باید درک صحیحی از ساختار pandas و data frame های آن داشته باشید تا بدانید pandas چطور کار می کند و چه نگاهی به داده ها دارد.
جایگاه کتابخانه pandas در علوم داده
کتابخانه pandas نقشی اساسی و بزرگ در حوزه علوم داده دارد. pandas در اصل روی پکیج NumPy ساخته شده است بنابراین بسیاری از ساختارهای NumPy در pandas نیز تکرار شده اند. داده های تولید شده یا محاسبه شده در pandas معمولا به پکیج هایی مانند SciPy پاس داده می شوند تا تحلیل های آماری پیشرفته تر روی آن ها انجام شود. همچنین این داده ها معمولا به کتابخانه هایی مانند Matplotlib پاس داده می شوند که به data visualization (بصری سازی داده ها) کمک می کنند و نهایتا با پکیج هایی مانند Scikit-learn داده ها را به الگوریتم های یادگیری ماشینی پاس می دهیم تا به سراغ مبحث یادگیری ماشینی یا machine learning برویم.
معمولا برای استفاده پیشرفته از pandas آن را درون Jupyter Notebooks استفاده می کنند اما شما می توانید از ویرایشگرهای معمولی مانند visual studio code نیز برای میزبانی pandas استفاده کنید. تفاوت ویرایشگرهای عادی کد مانند visual studio code با Jupyter Notebooks در این است که ویرایشگرهای کد معمولا کدهای شما را در واحد فایل اجرا می کنند، یعنی به محض نوشتن و اجرای یک کد پایتون در یک فایل، کل آن کد توسط ویرایشگر اجرا خواهد شد. این در حالی است که Jupyter Notebooks می توانند کدهای شما را به بخش های مختلفی تقسیم کرده و اجرای آن را در سطح این بخش ها انجام بدهند.
شاید در نگاه اول متوجه مزیت تقسیم کد به قسمت های مختلف نشوید اما اگر خوب به کاربرد pandas فکر کنید متوجه خواهید شد که چرا اجرای کد در بخش های مختلف و کوچکتر برای ما کاربردی است. pandas با داده ها کار می کند و در زمینه تحلیل آن ها فعالیت دارد و این داده ها معمولا صد یا دویست ردیف نیستند! اگر داده های ما در این حد محدود بودند اصلا نیازی به استفاده از ابزار های آماری سنگین نبود بلکه می توانستیم خودمان با کاغذ و خودکار تحلیل های آماری را روی آن انجام بدهیم. داده هایی که سر و کارشان با pandas است معمولا صد ها هزار یا میلیون ها ردیف داده هستند و حجم عظیمی دارند. طبیعتا انجام عملیات مختلف روی این داده ها زمان زیادی خواهد برد بنابراین اگر بخواهیم تمام کار ها را به صورت یکجا روی داده ها انجام بدهیم ممکن است سیستم ما crash یا هنگ کند. Jupyter Notebooks با تقسیم کردن بار کاری روی بخش های مختلف، از این مشکل جلوگیری می کنند و زمان انجام عملیات را کاهش می دهند. علاوه بر این Jupyter Notebooks کار بصری سازی داده ها را بسیار ساده تر می کنند و دائما داده های ما را در وضعیت های مختلف به ما نشان می دهند.
چه زمانی از کتابخانه pandas استفاده کنم؟
در صورتی که با زبان پایتون آشنا نیستید نباید به هیچ عنوان به سراغ کتابخانه pandas بروید چرا که فقط خودتان را سردرگم می کنید. البته برای کار با pandas نیاز به یادگیری پایتون در سطح مهندسین نرم افزار ندارید اما باید آشنایی متوسطی با پایتون داشته باشید؛ مثلا انواع داده های tuple یا dictionary و غیره یا آشنایی با مفاهیم توابع و حلقه ها و گردش بین داده ها و امثال آن. آشنایی با این مباحث و داشتن پایه ای نسبتا خوب از برنامه نویسی با پایتون به شما کمک بزرگی در استفاده از pandas می کند. همچنین به دلیل توضیحاتی که دادم، پیشنهاد می شود با کتابخانه NumPy نیز آشنا شوید اما این فقط یک توصیه بوده و اجباری نیست.
نحوه نصب کتابخانه pandas
نصب کتابخانه pandas بسیار ساده و راحت است. برای انجام این کار ابتدا مطمئن باشید که پایتون روی سیستم شما نصب شده است. برای اطمینان از این موضوع به روش زیر عمل کنید.
کاربران مک و لینوکس: ترمینال خود را باز کرده و دستور python یا python3 را در آن اجرا کنید. این دستور شما را وارد shell می کند که در آن می توانید کدهای python بنویسید (دستور ورود در برخی سیستم ها python و در برخی از سیستم ها python3 است) بنابراین اگر با اجرای یکی از این دو دستور وارد محیط shell شدید و نتیجه زیر را دریافت کردید یعنی پایتون برای شما نصب شده است:
Python 3.8.6 (default, Jan 27 2021, 15:42:20) [GCC 10.2.0] on linux Type "help", "copyright", "credits" or "license" for more information. >>>
می توانید با فشردن کلیدهای Ctrl + D از این محیط خارج شوید.
کاربران ویندوز: Command Prompt را باز کرده و دستور python یا python3 را در آن اجرا کنید. این دستور شما را وارد shell می کند که در آن می توانید کدهای python بنویسید(دستور ورود در برخی سیستم ها python و در برخی از سیستم ها python3 است) بنابراین اگر با اجرای یکی از این دو دستور وارد محیط shell شدید و نتیجه زیر را دریافت کردید یعنی پایتون برای شما نصب شده است:
Python 3.8.6 (default, Jan 27 2021, 15:42:20) [GCC 10.2.0] on win32 Type "help", "copyright", "credits" or "license" for more information. >>>
می توانید با فشردن کلیدهای Ctrl + D از این محیط خارج شوید.
حالا چه از ویندوز و چه از مک و لینوکس استفاده می کنید، باید ترمینال یا command prompt خود را باز کرده و دستور زیر را اجرا کنید:
pip install pandas
در صورتی که با محیط Conda کار می کنید باید به جای دستور بالا، دستور زیر را در سیستم خود اجرا کنید:
conda install pandas
همچنین اگر با یک Jupyter notebook کار می کنید باید به جای دستورات قبلی این دستور را اجرا کنید:
!pip install pandas
علامت ! در ابتدای دستور بالا باعث می شود که این دستور به صورت یک دستور ترمینال اجرا شود.
زمانی که پکیج pandas را با هر کدام از روش های بالا نصب کردید، باید آن را در کدهایتان import کنید. این کار برای کاربرانی که از ویرایشگرهایی مانند visual studio code یا از Jupyter Notebook استفاده می کنند یکسان است:
import pandas as pd
استفاده از کتابخانه pandas با نام pd تقریبا به یک استاندارد تبدیل شده است و همه این کار را انجام می دهند چرا که تایپ آن سریع تر و راحت تر است.
دیدگاهتان را بنویسید