5 آزمون آماری که باید در علم داده بشناسید (بخش اول)

5  آزمون آماری که باید در علم داده بشناسید (بخش اول)
در این پست می‌خوانید:

وقتی داریم علم داده رو یادمیگیریم، در کنار مطالعه مدل‌های یادگیری ماشینی مانند رگرسیون خطی، درخت‌های تصمیم‌گیری و الگوریتم‌های خوشه‌بندی باید با آزمون‌های آماری مختلف آشنا بشیم. این آزمون‌ها ستون فقرات تجزیه و تحلیل و تفسیر داده‌ها هستند. در واقع باعث تقویت مدل‌های یادگیری ماشینی که استفاده می‌کنیم می‌شوند و اطمینان می‌دهند که نتایج آنها را به درستی درک کرده و توضیح می‌دهیم. تسلط بر این مفاهیم آماری به ما این امکان رو میده تا تصمیمات مطمئن و مبتنی بر داده بگیریم.

در این مقاله، پنج آزمون آماری مهم که در علم داده از اهمیت بالایی برخوردار هستند، بررسی می‌کنیم.  در اینجا توضیح میدیم که اون‌ها چه هستند، چه زمانی ازشون استفاده کنیم و چگونه در زبان پایتون اجراشون کنیم.

1- آزمون T یا T-Test (Student’s T-Test):

آزمون t میانگین دو گروه را با هم مقایسه می‌کند. این آزمون معمولاً در آزمون فرضیه‌ها (Hypothesis testing) به بررسی این موضوع می‌پردازد که آیا تفاوت میانگین دو گروه آیا به لحاظ آماری معنی‌دار است یا خیر. در واقع مشخص می‌کنه که آیا مداخله (دارو و…) تأثیر معنی‌داری بر گروه آزمایش گذاشته است یا خیر؟

فرمول آزمون t برابر است با:

t-test

چه زمانی باید از این آزمون استفاده کنیم؟

همانطور که پیش‌تر گفته شد آزمون تی برای مقایسه میانگین دو گروه مناسب است. برای سه یا چند گروه، از آزمون های ANOVA یا post-hoc استفاده می‌شود.

چه فرضیاتی برای این آزمون در نظر گرفته می‌شود؟

آزمون T فرض می کند که داده ها: 1- مستقل هستند 2- از توزیع نرمال پیروی می‌کنند 3- همگن هستند درصورتی که داده‌ها از این سه فرض پیروی نکنند (به خصوص نرمال بودن) باید از آزمون‌های ناپارامتریک مانند آزمون ویلکاکسون (Wilcoxon Signed-Rank) استفاده کرد.


انواع آزمون t

  1. آزمون t زوجی (Paired t-test): برای طرح های تک جمعیتی، قبل و بعد
  2. آزمون t مستقل (Independent t-test): برای دو جمعیت مجزا
  3. آزمون t تک نمونه ای (One-sample t-test): یک گروه را با یک مقدار استاندارد مقایسه می‌کنه.


انواع مختلف آزمون t

کاربرد انواع آزمون t

  • آزمون t زوجی (Paired t-test): زمانی که می‌خواهیم تفاوت قبل و بعد یک جمعیت را پس از اعمال یک مداخله ببینیم.
  • آزمون t مستقل (Independent t-test): زمانی که دو تا جمعیت کاملاً متفاوت رو با هم مقایسه کنیم از این آزمون استفاده می‌کنیم.
  • آزمون t تک نمونه‌ای(One-sample t-test): اگر قصد داشته باشیم یک گروه را با یک مقدار استاندارد مقایسه کنیم، این آزمون مناسب خواهد بود.
  • آزمون t دو طرفه (Two-Tailed T-Test): زمانی که می‌خواهیم تنها معنی‌داری تفاوت بین دو گروه را بررسی کنیم. در این روش میزان و جهت تفاوت اهمیت ندارد.
  • آزمون t یک‌طرفه (One-Tailed T-Test): زمانی استفاده می‌شود که جهت تفاوت مشخص است و قابل حدس است. مثلا مشخص باشد که احتمالاً میانگین گروه دوم از گروه اول بزرگتر است اما آیا این تفاوت معنی‌دار است یا خیر؟

از موارد استفاده این آزمون می‌توان در آزمایشات بالینی (برای مقایسه اثربخشی روش‌های درمانی) و A/B Testing (برای اندازه‌گیری تأثیر استراتژی‌های بازاریابی مختلف یا تغییرات محصول) اشاره کرد.

نحوه اجرا در زبان پایتون

برای انجام این آزمون می‌توان از کتابخانه Scipy استفاده کرد.

import scipy.stats as stats

# Sample data
group1 = [23, 20, 25, 27, 30, 22, 24, 21]
group2 = [27, 29, 24, 26, 28, 30, 32, 31]

# Perform the two-sample T-test
t_statistic, p_value = stats.ttest_ind(group1, group2)
print(f"T-statistic: {t_statistic}, P-value: {p_value}")

 

تفسیر نتایج آزمون t

پس از انجام آزمون t، درک چگونگی تفسیر p-value و مفهوم معناداری آماری مهم است؛ اما به صورت کلی اگر مقدار P-Value کمتر از 5 درصد شد، بیانگر وجود تفاوت معنی‌دار است (درخصوص سطوح معنی‌داری مطالعه کنید.

2- تحلیل واریانس یا ANOVA (Analysis of Variance):

ANOVA را می‌توان به‌عنوان یک ابزار قدرتمند مقایسه در نظر گرفت، به‌ویژه زمانی که با بیشتر از دو گروه (سه یا چند گروه) سر و کار دارید و می‌خواهید بررسی کنید آیا تفاوت معناداری بین آن‌ها وجود دارد یا خیر. این آزمون زمانی مفید است که با شرایط متعددی روبه‌رو هستید و می‌خواهید بدانید آیا واقعاً با یکدیگر تفاوت دارند یا خیر. فرمول کلی برای ANOVA به شرح زیر است. هدف اصلی این روش، بررسی تفاوت معنادار بین میانگین گروه‌ها است. برای این کار، از نسبت بین واریانس بین گروه‌ها (Between-group variance) و واریانس درون گروه‌ها (Within-group variance) استفاده می‌شود. در نظر داشته باشید که این تنها کلیت این آزمون است و ما در اینجا می‌خواهیم به صورت کاربردی این آزمون‌ها رو بررسی کنیم و وارد جزئیات این آن‌ها نمی‌شویم.

چه زمانی باید از این آزمون استفاده کنیم؟

بهترین زمان استفاده از ANOVA زمانی است که می‌خواهید میانگین سه یا تعداد بیشتری گروه را مقایسه کنید. اگر فقط با دو گروه سر و کار دارید، آزمون t کافی است.

ANOVA یک‌طرفه (One-Way ANOVA):

از ANOVA یک‌طرفه زمانی استفاده می‌شود که یک متغیر مستقل طبقه‌بندی‌شده با سه یا تعداد بیشتری گروه و یک متغیر وابسته پیوسته دارید. هدف این آزمون بررسی این است که آیا تفاوت معنی‌داری در متغیر وابسته بین این گروه‌ها وجود دارد یا خیر. برای درک بهتر موضوع به مثال‌های زیر دقت کنید:

  1. بررسی تأثیر رژیم‌های غذایی مختلف بر کاهش وزن:
    • متغیر مستقل: نوع رژیم غذایی (رژیم A، رژیم B، رژیم C).
    • متغیر وابسته: میزان کاهش وزن (یک متغیر پیوسته).
  2. آزمون سطح مصرف کافئین و تأثیر آن بر هوشیاری:
    • متغیر مستقل: سطح مصرف کافئین (کم، متوسط، زیاد).
    • متغیر وابسته: سطح هوشیاری (اندازه‌گیری‌شده به‌صورت عددی).
  3. مقایسه عملکرد فروش در سه مکان فروشگاه:
    • متغیر مستقل: مکان فروشگاه (سه مکان مختلف).
    • متغیر وابسته: عملکرد فروش (اعداد مربوط به فروش، یک متغیر پیوسته).

ANOVA دوطرفه (Two-Way ANOVA)

از ANOVA دوطرفه زمانی استفاده می‌شود که دو متغیر مستقل طبقه‌بندی و یک متغیر وابسته پیوسته داشته باشید. این آزمون هم اثر جداگانه (اصلی) هر متغیر مستقل و هم اثر ترکیبی (تعاملی) آن‌ها را روی متغیر وابسته بررسی می‌کند. به مثال‌های زیر توجه کنید:

  1. بررسی تأثیر روش‌های تدریس و زمان مطالعه بر عملکرد دانش‌آموزان:
    • متغیرهای مستقل:
      • روش تدریس (آنلاین، حضوری).
      • زمان مطالعه (کم، متوسط، زیاد).
    • متغیر وابسته: عملکرد دانش‌آموزان (یک نمره عددی پیوسته).
  2. مطالعه تأثیر سطوح آبیاری و نوع کود بر بازده محصول:
    • متغیرهای مستقل:
      • سطح آبیاری (کم، متوسط، زیاد).
      • نوع کود (کود A، کود B).
    • متغیر وابسته: بازده محصول (مقدار برداشت، یک متغیر پیوسته).
  3. تحلیل تأثیر جنسیت و گروه سنی بر رضایت شغلی:
    • متغیرهای مستقل:
      • جنسیت (زن، مرد).
      • گروه سنی (جوان، میانسال، مسن).
    • متغیر وابسته: میزان رضایت شغلی (اندازه‌گیری‌شده به‌صورت عددی).

توجه:

برای استفاده از ANOVA دوطرفه، داده‌ها باید شرایط زیر را داشته باشند:

  • توزیع نرمال متغیر وابسته.
  • همگنی واریانس بین گروه‌ها.

نحوه اجرا در زبان پایتون

import scipy.stats as stats

# Sample data
group1 = [20, 23, 25, 27]
group2 = [30, 33, 35, 37]
group3 = [40, 43, 45, 47]

# Perform One-way ANOVA
f_statistic, p_value = stats.f_oneway(group1, group2, group3)
print(f"F-statistic: {f_statistic}, P-value: {p_value}")

تفسیر نتایج

بعد از اجرای ANOVA، وقت آن است که نتایج را تجزیه و تحلیل کنید:

  1. سطح معناداری (Alpha):
    معمولاً سطح معناداری را بر روی 0.05 تنظیم می‌کنند. این به این معناست که اگر p-value کمتر از 0.05 باشد، می‌توانیم فرض صفر (H₀) را رد کنیم و بگوییم که تفاوت معنی‌داری بین گروه‌ها وجود دارد.
  2. تحلیل پس‌ از آزمون (Post-hoc Analysis):
    اگر ANOVA نشان داد که تفاوت معن‌داری وجود دارد، باید بررسی کنیم که دقیقاً کدام گروه‌ها با هم تفاوت دارند. این کار را با استفاده از آزمون‌های پس‌ازآزمون (مثل آزمون Tukey) انجام می‌دهیم. این آزمون‌ها کمک می‌کنند تا بفهمیم که تفاوت دقیقاً بین کدام گروه‌ها است و کدام‌ها به‌طور خاص از یکدیگر متفاوتند.

ادامه دارد…

5/5 - (3 امتیاز)
دیدگاه‌ها ۰
ارسال دیدگاه جدید