گروه آماری دانش گستر

گروه آماری دانش گستر

جزئیات وبلاگ

image

سوگیری چیست؟

سوگیری چیست؟

همه شما با واژه «سوگیری» آشنا خواهید شد. برای مثال، همیشه هنگام تماشای بازی­های ورزشی، احتمالاً داور را گاهی به سوگیری متهم کرده­ اید، یا هنگام تماشایی نمایش تلویزیونی مانند فاکتور-x ممکن است احساس کرده باشید که یکی از داوران نسبت به اعمالی که آنها نشان داده­ اند، «سوگیری» داشت. در این زمینه ­ها، سوگیری بدین معنی است که فرد در حال ارزیابی شواهد (برای مثال، آواز خواندن فرد) در یک روش عینی نیست: چیزهای دیگری در حال تاثیرگذاری بر نتیجه گیری­ هایش هستند. به همین نحوه، هنگام تحلیل داده­ ها ممکن است چیزهای وجود داشته باشد که ما را به نتیجه ­گیری اشتباه بیندازند.

پس از جمع­ آوری داده­ ها، معمولاً یک مدل را برای فرضیه مورد آزمون برازش می­ کنیم. این مدل معمولاً یک مدل خطی است که برگرفته از معادله زیر می باشد:

Y=(b1X1i+b2X2i+…+bnXni)+errori

(Yمتغیر ملاک؛ X متغیر پیش بین؛ و e خطا)

بنابراین، متغیر ملاک را از برخی از انواع مدل­ ها پیش­ بینی می­ کنیم. این مدل با یک یا چند متغیر پیش­بین (Xs در معادله) و پارامترها (b ها در معادله) توصیف شده است. پارامترها به ما درباره ­ی ارتباط بین متغیرهای پیش­بین و متغیر ملاک می­گویند. در نهایت، مدل متغیر ملاک را به طور کامل پیش بینی نمی­کند، بنابراین، برای هر مشاهده، مقداری خطا وجود خواهد داشت.

هنگامی که یک مدل را با داده­ها برازش می­کنیم، پارامترها را برآورد می­کنیم و معمولاً از روش حداقل مجذورات استفاده می­کنیم. به نمونه به اندازه جامعه کلی­تر که به آن دسترسی نداریم، علاقمند نیستیم. بنابراین، از داده­های نمونه برای برآورد مقادیر پارامتر در جامعه استفاده می­کنیم (به همین دلیل آنها را برآورد بجای مقادیر می نامیم). هنگامی که پارامتر را برآورد می­کنیم، همچنین برآوردی از میزان معرف بودن نمونه از جامعه؛ مانند خطای استاندارد یا فاصله اطمینان محاسبه می­کنیم. همچنین، می­توانیم فرضیه­های درباره این پارامترها با محاسبه آماره­های آزمون و احتمالات همراه آنها (مقادیر-p) آزمون کنید. بنابراین، هنگامی که درباره سوگیری فکر می­کنیم، باید درباره آن در سه زمینه فکر کنیم:

1. عواملی که برآوردهای پارامتر را دچار سوگیری می­کنند.

2. عواملی که خطاهایی استاندارد و فواصل اطمینان را دچار سوگیری می­کنند.

3. عواملی که آماره های آزمون و مقادیر-p را دچار سوگیری می­کنند.

این موقعیت­ها به هم مرتبط هستند: اولاً، اگر خطای استاندارد دچار سوگیری شود، فاصله اطمینان نیز دچار سوگیری خواهد شد، زیرا مبتنی بر خطای استاندارد است؛ دوماً، آماره­های آزمون معمولاً مبتنی بر خطای استاندارد هستند (یا تا اندازه­ای مرتبط با آن هستند)، بنابراین، اگر خطای استاندارد دچار سوگیری شود، آماره­های آزمون نیز دچار سوگیری خواهند شد، و سوماً، اگر آماره آزمون دچار سوگیری شود. بنابراین، مقدار-p آن نیز چنین خواهد بود. مهم است که هر چیزی را شناسایی و محو کنیم که ممکن است روی اطلاعات مورد نیاز برای دستیابی به نتیجه ­گیری درباره جهان تاثیر بگذارد: اگر آماره آزمون دقیق نیست (یا دچار سوگیری شده است)، پس نتیجه ­گیری­ نیز دچار سوگیری خواهد بود.

این عوامل سوگیری شامل نمرات غیرمعمول یا «داده پرت» و «تخطی از مفروضه ­ها» نامیده شده است.