5 آزمون آماری که باید در علم داده بشناسید (بخش اول)

وقتی داریم علم داده رو یادمیگیریم، در کنار مطالعه مدلهای یادگیری ماشینی مانند رگرسیون خطی، درختهای تصمیمگیری و الگوریتمهای خوشهبندی باید با آزمونهای آماری مختلف آشنا بشیم. این آزمونها ستون فقرات تجزیه و تحلیل و تفسیر دادهها هستند. در واقع باعث تقویت مدلهای یادگیری ماشینی که استفاده میکنیم میشوند و اطمینان میدهند که نتایج آنها را به درستی درک کرده و توضیح میدهیم. تسلط بر این مفاهیم آماری به ما این امکان رو میده تا تصمیمات مطمئن و مبتنی بر داده بگیریم.
در این مقاله، پنج آزمون آماری مهم که در علم داده از اهمیت بالایی برخوردار هستند، بررسی میکنیم. در اینجا توضیح میدیم که اونها چه هستند، چه زمانی ازشون استفاده کنیم و چگونه در زبان پایتون اجراشون کنیم.
1- آزمون T یا T-Test (Student’s T-Test):
آزمون t میانگین دو گروه را با هم مقایسه میکند. این آزمون معمولاً در آزمون فرضیهها (Hypothesis testing) به بررسی این موضوع میپردازد که آیا تفاوت میانگین دو گروه آیا به لحاظ آماری معنیدار است یا خیر. در واقع مشخص میکنه که آیا مداخله (دارو و…) تأثیر معنیداری بر گروه آزمایش گذاشته است یا خیر؟
فرمول آزمون t برابر است با:
چه زمانی باید از این آزمون استفاده کنیم؟
همانطور که پیشتر گفته شد آزمون تی برای مقایسه میانگین دو گروه مناسب است. برای سه یا چند گروه، از آزمون های ANOVA یا post-hoc استفاده میشود.
چه فرضیاتی برای این آزمون در نظر گرفته میشود؟
آزمون T فرض می کند که داده ها: 1- مستقل هستند 2- از توزیع نرمال پیروی میکنند 3- همگن هستند درصورتی که دادهها از این سه فرض پیروی نکنند (به خصوص نرمال بودن) باید از آزمونهای ناپارامتریک مانند آزمون ویلکاکسون (Wilcoxon Signed-Rank) استفاده کرد.
انواع آزمون t
- آزمون t زوجی (Paired t-test): برای طرح های تک جمعیتی، قبل و بعد
- آزمون t مستقل (Independent t-test): برای دو جمعیت مجزا
- آزمون t تک نمونه ای (One-sample t-test): یک گروه را با یک مقدار استاندارد مقایسه میکنه.
کاربرد انواع آزمون t
- آزمون t زوجی (Paired t-test): زمانی که میخواهیم تفاوت قبل و بعد یک جمعیت را پس از اعمال یک مداخله ببینیم.
- آزمون t مستقل (Independent t-test): زمانی که دو تا جمعیت کاملاً متفاوت رو با هم مقایسه کنیم از این آزمون استفاده میکنیم.
- آزمون t تک نمونهای(One-sample t-test): اگر قصد داشته باشیم یک گروه را با یک مقدار استاندارد مقایسه کنیم، این آزمون مناسب خواهد بود.
- آزمون t دو طرفه (Two-Tailed T-Test): زمانی که میخواهیم تنها معنیداری تفاوت بین دو گروه را بررسی کنیم. در این روش میزان و جهت تفاوت اهمیت ندارد.
- آزمون t یکطرفه (One-Tailed T-Test): زمانی استفاده میشود که جهت تفاوت مشخص است و قابل حدس است. مثلا مشخص باشد که احتمالاً میانگین گروه دوم از گروه اول بزرگتر است اما آیا این تفاوت معنیدار است یا خیر؟
از موارد استفاده این آزمون میتوان در آزمایشات بالینی (برای مقایسه اثربخشی روشهای درمانی) و A/B Testing (برای اندازهگیری تأثیر استراتژیهای بازاریابی مختلف یا تغییرات محصول) اشاره کرد.
نحوه اجرا در زبان پایتون
برای انجام این آزمون میتوان از کتابخانه Scipy استفاده کرد.
import scipy.stats as stats # Sample data group1 = [23, 20, 25, 27, 30, 22, 24, 21] group2 = [27, 29, 24, 26, 28, 30, 32, 31] # Perform the two-sample T-test t_statistic, p_value = stats.ttest_ind(group1, group2) print(f"T-statistic: {t_statistic}, P-value: {p_value}")
تفسیر نتایج آزمون t
پس از انجام آزمون t، درک چگونگی تفسیر p-value و مفهوم معناداری آماری مهم است؛ اما به صورت کلی اگر مقدار P-Value کمتر از 5 درصد شد، بیانگر وجود تفاوت معنیدار است (درخصوص سطوح معنیداری مطالعه کنید.
2- تحلیل واریانس یا ANOVA (Analysis of Variance):
ANOVA را میتوان بهعنوان یک ابزار قدرتمند مقایسه در نظر گرفت، بهویژه زمانی که با بیشتر از دو گروه (سه یا چند گروه) سر و کار دارید و میخواهید بررسی کنید آیا تفاوت معناداری بین آنها وجود دارد یا خیر. این آزمون زمانی مفید است که با شرایط متعددی روبهرو هستید و میخواهید بدانید آیا واقعاً با یکدیگر تفاوت دارند یا خیر. فرمول کلی برای ANOVA به شرح زیر است. هدف اصلی این روش، بررسی تفاوت معنادار بین میانگین گروهها است. برای این کار، از نسبت بین واریانس بین گروهها (Between-group variance) و واریانس درون گروهها (Within-group variance) استفاده میشود. در نظر داشته باشید که این تنها کلیت این آزمون است و ما در اینجا میخواهیم به صورت کاربردی این آزمونها رو بررسی کنیم و وارد جزئیات این آنها نمیشویم.
چه زمانی باید از این آزمون استفاده کنیم؟
بهترین زمان استفاده از ANOVA زمانی است که میخواهید میانگین سه یا تعداد بیشتری گروه را مقایسه کنید. اگر فقط با دو گروه سر و کار دارید، آزمون t کافی است.
ANOVA یکطرفه (One-Way ANOVA):
از ANOVA یکطرفه زمانی استفاده میشود که یک متغیر مستقل طبقهبندیشده با سه یا تعداد بیشتری گروه و یک متغیر وابسته پیوسته دارید. هدف این آزمون بررسی این است که آیا تفاوت معنیداری در متغیر وابسته بین این گروهها وجود دارد یا خیر. برای درک بهتر موضوع به مثالهای زیر دقت کنید:
- بررسی تأثیر رژیمهای غذایی مختلف بر کاهش وزن:
- متغیر مستقل: نوع رژیم غذایی (رژیم A، رژیم B، رژیم C).
- متغیر وابسته: میزان کاهش وزن (یک متغیر پیوسته).
- آزمون سطح مصرف کافئین و تأثیر آن بر هوشیاری:
- متغیر مستقل: سطح مصرف کافئین (کم، متوسط، زیاد).
- متغیر وابسته: سطح هوشیاری (اندازهگیریشده بهصورت عددی).
- مقایسه عملکرد فروش در سه مکان فروشگاه:
- متغیر مستقل: مکان فروشگاه (سه مکان مختلف).
- متغیر وابسته: عملکرد فروش (اعداد مربوط به فروش، یک متغیر پیوسته).
ANOVA دوطرفه (Two-Way ANOVA)
از ANOVA دوطرفه زمانی استفاده میشود که دو متغیر مستقل طبقهبندی و یک متغیر وابسته پیوسته داشته باشید. این آزمون هم اثر جداگانه (اصلی) هر متغیر مستقل و هم اثر ترکیبی (تعاملی) آنها را روی متغیر وابسته بررسی میکند. به مثالهای زیر توجه کنید:
- بررسی تأثیر روشهای تدریس و زمان مطالعه بر عملکرد دانشآموزان:
- متغیرهای مستقل:
- روش تدریس (آنلاین، حضوری).
- زمان مطالعه (کم، متوسط، زیاد).
- متغیر وابسته: عملکرد دانشآموزان (یک نمره عددی پیوسته).
- متغیرهای مستقل:
- مطالعه تأثیر سطوح آبیاری و نوع کود بر بازده محصول:
- متغیرهای مستقل:
- سطح آبیاری (کم، متوسط، زیاد).
- نوع کود (کود A، کود B).
- متغیر وابسته: بازده محصول (مقدار برداشت، یک متغیر پیوسته).
- متغیرهای مستقل:
- تحلیل تأثیر جنسیت و گروه سنی بر رضایت شغلی:
- متغیرهای مستقل:
- جنسیت (زن، مرد).
- گروه سنی (جوان، میانسال، مسن).
- متغیر وابسته: میزان رضایت شغلی (اندازهگیریشده بهصورت عددی).
- متغیرهای مستقل:
توجه:
برای استفاده از ANOVA دوطرفه، دادهها باید شرایط زیر را داشته باشند:
- توزیع نرمال متغیر وابسته.
- همگنی واریانس بین گروهها.
نحوه اجرا در زبان پایتون
import scipy.stats as stats # Sample data group1 = [20, 23, 25, 27] group2 = [30, 33, 35, 37] group3 = [40, 43, 45, 47] # Perform One-way ANOVA f_statistic, p_value = stats.f_oneway(group1, group2, group3) print(f"F-statistic: {f_statistic}, P-value: {p_value}")
تفسیر نتایج
بعد از اجرای ANOVA، وقت آن است که نتایج را تجزیه و تحلیل کنید:
- سطح معناداری (Alpha):
معمولاً سطح معناداری را بر روی 0.05 تنظیم میکنند. این به این معناست که اگر p-value کمتر از 0.05 باشد، میتوانیم فرض صفر (H₀) را رد کنیم و بگوییم که تفاوت معنیداری بین گروهها وجود دارد. - تحلیل پس از آزمون (Post-hoc Analysis):
اگر ANOVA نشان داد که تفاوت معنداری وجود دارد، باید بررسی کنیم که دقیقاً کدام گروهها با هم تفاوت دارند. این کار را با استفاده از آزمونهای پسازآزمون (مثل آزمون Tukey) انجام میدهیم. این آزمونها کمک میکنند تا بفهمیم که تفاوت دقیقاً بین کدام گروهها است و کدامها بهطور خاص از یکدیگر متفاوتند.
ادامه دارد…