همه شما با واژه «سوگیری» آشنا خواهید شد.
برای مثال، همیشه هنگام تماشای بازیهای
ورزشی، احتمالاً داور را گاهی به سوگیری متهم کرده اید، یا هنگام تماشایی نمایش
تلویزیونی مانند فاکتور-x ممکن است احساس
کرده باشید که یکی از داوران نسبت به اعمالی که آنها نشان داده اند، «سوگیری»
داشت. در این زمینه ها، سوگیری بدین معنی است که فرد در حال ارزیابی شواهد (برای
مثال، آواز خواندن فرد) در یک روش عینی نیست: چیزهای دیگری در حال تاثیرگذاری بر
نتیجه گیری هایش هستند. به همین نحوه، هنگام تحلیل داده ها ممکن است چیزهای وجود
داشته باشد که ما را به نتیجه گیری اشتباه بیندازند.
پس از جمع آوری داده ها،
معمولاً یک مدل را برای فرضیه مورد آزمون برازش می کنیم. این مدل معمولاً یک مدل
خطی است که برگرفته از معادله زیر می
باشد:
Y=(b1X1i+b2X2i+…+bnXni)+errori
(Yمتغیر
ملاک؛ X متغیر پیش بین؛ و e خطا)
بنابراین، متغیر ملاک را از برخی از انواع
مدل ها پیش بینی می کنیم. این مدل با یک یا چند متغیر پیشبین (Xs
در معادله) و پارامترها (b ها در معادله)
توصیف شده است. پارامترها به ما درباره ی ارتباط بین متغیرهای پیشبین و متغیر ملاک میگویند.
در نهایت، مدل متغیر ملاک را به طور کامل پیش بینی نمیکند، بنابراین، برای هر مشاهده، مقداری خطا وجود خواهد
داشت.
هنگامی که یک مدل را با دادهها برازش میکنیم،
پارامترها را برآورد میکنیم
و معمولاً از روش حداقل مجذورات استفاده میکنیم. به نمونه به اندازه جامعه کلیتر که به آن دسترسی نداریم، علاقمند نیستیم. بنابراین، از
دادههای نمونه برای
برآورد مقادیر پارامتر در جامعه استفاده میکنیم
(به همین دلیل آنها را برآورد بجای مقادیر می نامیم). هنگامی که پارامتر را برآورد
میکنیم، همچنین برآوردی
از میزان معرف بودن نمونه از جامعه؛ مانند خطای استاندارد یا فاصله
اطمینان محاسبه میکنیم.
همچنین، میتوانیم فرضیههای
درباره این پارامترها با محاسبه آمارههای
آزمون و احتمالات همراه آنها (مقادیر-p) آزمون کنید. بنابراین، هنگامی که درباره سوگیری فکر میکنیم، باید درباره آن در سه زمینه فکر کنیم:
1.
عواملی که برآوردهای
پارامتر را دچار سوگیری میکنند.
2.
عواملی که خطاهایی
استاندارد و فواصل اطمینان را دچار سوگیری میکنند.
3.
عواملی که آماره های
آزمون و مقادیر-p را دچار سوگیری میکنند.
این موقعیتها
به هم مرتبط هستند: اولاً، اگر خطای استاندارد دچار سوگیری شود، فاصله اطمینان نیز
دچار سوگیری خواهد شد، زیرا مبتنی بر خطای استاندارد است؛ دوماً، آمارههای آزمون معمولاً مبتنی بر خطای استاندارد هستند (یا تا
اندازهای مرتبط با آن هستند)،
بنابراین، اگر خطای استاندارد دچار سوگیری شود، آمارههای
آزمون نیز دچار سوگیری خواهند شد، و سوماً، اگر آماره آزمون دچار سوگیری شود. بنابراین، مقدار-p آن نیز چنین خواهد بود. مهم است که هر چیزی را شناسایی و محو کنیم
که ممکن است روی اطلاعات مورد نیاز برای دستیابی به نتیجه گیری درباره جهان تاثیر
بگذارد: اگر آماره آزمون دقیق نیست (یا دچار سوگیری شده است)، پس نتیجه گیری نیز
دچار سوگیری خواهد بود.
این عوامل سوگیری شامل نمرات غیرمعمول یا «داده
پرت» و «تخطی از مفروضه ها» نامیده شده است.