یکی از مهمترین عامل ها که موجب سوگیری در داده ها می شود، «داده های
پرت» هستند. یک داده پرت،
نمره خیلی متفاوتی از بقیه داده ها است. اجازه دهید یک مثال را بررسی کنیم، ارزیابی کتابی روی سایت آمازون را با
وسواس چک می کردم. دامنه این درجه بندی بین 1 تا 5 ستاره است که 5
بهترین است. این کتاب هفت
رتبه (در یک ترتیب معین) شامل 2، 5، 4، 5، 5، 5، 5 داشت. همه بجز یکی از این رتبه ها
کاملاً مشابه هستند (عمدتاً 5 و 4)، اما رتبه اول کاملاً از بقیه رتبه ها متفاوت است-این
رتبه 2 بود (یک رتبه متوسط و وحشتناک). شکل نمودار سمت راست هفت بازبین نگر را روی محور
افقی و رتبه هایشان را روی محور عمودی ترسیم می کند. همچنین، یک خط افقی نقطه چین وجود دارد که میانگین
رتبه ها را نشان می دهد (43/4، همانگونه که آن رخ می دهد). باید روشن باشد که همه نمرات
به غیر از یکی در نزدیکی این خط قرار می گیرند. نمره 2 خیلی متفاوت است و تا حدی پایینتر
از میانگین قرار می گیرد. این نمره مثالی از یک داده پرت است-یک شخص غیرمعمول و عجیب
(ببخشید من نمره را معنی می کنم) که با بقیه بشریت (مجموع دادهها) فرق می کند. خط
تیره افقی میانگین نمرات را در زمانی نشان می دهد که داده پرت در نظر گرفته نشده است
(83/4). این خط نسبت به میانگین اصلی بالاتر است و نشان می دهد که میانگین با نادیده
گرفتن این نمره افزایش می یابد (تقریباً 4/0). این مثال نشان می دهد که چگونه تنها
یک نمره می تواند پارامتری مانند میانگین را در یک جهت تحت تاثیر قرار دهد؛ اولین رتبه
(2) میانگین را پایین می کشد. ممکن است
مشتریان جدید بر اساس این برآورد دارای سوگیری به اشتباه نتیجه بگیرند که کتاب، نسبت
به آنچه جامعه درباره کتاب فکر میکند، بد است.
مثال نشان می دهد که دادهه ای پرت نه تنها ممکن است برآورد پارامتر را دچار سوگیری کنند، بلکه حتی اثر بیشتری روی خطای همراه با آن برآورد دارند. برای مثال، تعداد دوستان 5 مدرس آمار را بررسی کردیم. دادهها شامل اعداد 1، 3، 4، 3، 2 بودند، میانگین 6/2 بود و مجموع مجذورات خطا 2/5 بود. اجازه دهید یکی از نمرات را با داده پرت بوسیله تغییر 4 به 10 جایگزین کنیم. داده ها حالا شامل 1، 3، 10، 3 و 2 هستند.
اگر خودآزمایی را انجام داده باشید، باید
بیابید که میانگین مجموعه دادهها با داده پرت برابر با 8/3 و مجموع مجذورات خطا
برابر با 8/50 است. سمت چپ شکل این مقادیر را نشان می دهد؛ آن مجموع
مجدورات خطا (محور-y) همراه با مقادیر بالقوه متفاوت میانگین
(پارامتری که ما در حال برآورد هستیم، b) را نشان می
دهد. برای هر دو مجموعه داده های اصلی و مجموعه دادههای با داده پرت، برآورد
میانگین، یک برآورد بهینه است: برآوردی با حداقل خطا است که میتوانید بر اساس این
واقعیت بگویید که منحنیها روی مقادیر میانگین (6/2 و 8/3) به هم نزدیک میشوند.
هرچند، حضور داده پرت، منحنی را به سمت راست می کشد (یعنی، میانگین را افزایش میدهد)
و آن را به طرف بالا می برد (یعنی، مجموع مجذورات خطا را بزرگتر می کند). با
مقایسه مقدار جابجایی افقی منحنی نسبت به جابجایی عمودی، باید (امیدوارم) درک
روشنی در این مورد کسب کنید که دادههای پرت بر مجموع مجذورات خطا نسبت به برآورد
پارامترش به طور برجسته تری اثر می گذارند. این به دلیل استفاده از مجذورات خطا می باشد.
بنابراین، هرسوگیری ایجاد شده توسط داده پرت با این حقیقت که انحرافات مجذور شده اند،
بزرگنمایی می شود.
دیدیم که دادههای پرت میتوانند برآوردهای پارامترها (مانند میانگین) را دچار سوگیری کنند و همچنین به طور قابل توجه ای بر مجموع مجذورات خطاها اثر بگذارد. این نکته آخر مهم است، زیرا مجموع مجذورات خطا برای محاسبه انحراف استاندارد استفاده می شوند که این هم به نوبه خود برای برآورد خطای استاندارد استفاده می شود و خود خطای استاندارد برای محاسبه فواصل اطمینان حول برآورد پارامتر استفاده می شود. بنابراین، اگر مجموع مجذورات دچار سوگیری شود، به همین صورت، خطای استاندارد و فواصل اطمینان همراه با برآورد پارامتر نیز دچار سوگیری می شوند. به علاوه، بیشتر آماره های آزمون مبتنی بر مجموع مجذورات هستند، از اینرو، اینها نیز توسط داده های پرت دچار سوگیری خواهند شد.