گروه آماری دانش گستر

گروه آماری دانش گستر

جزئیات وبلاگ

image

داده های پرت (Outlier)

داده ­های پرت

یکی از مهمترین عامل ها که موجب سوگیری در داده ها می شود، «داده­ های پرت» هستند. یک داده پرت، نمره خیلی متفاوتی از بقیه داده ­ها است. اجازه دهید یک مثال را بررسی کنیم، ارزیابی کتابی روی سایت آمازون را با وسواس چک می­ کردم. دامنه این درجه ­بندی  بین 1 تا 5 ستاره است که 5 بهترین است. این کتاب  هفت رتبه (در یک ترتیب معین) شامل 2، 5، 4، 5، 5، 5، 5 داشت. همه بجز یکی از این رتبه­ ها کاملاً مشابه هستند (عمدتاً 5 و 4)، اما رتبه اول کاملاً از بقیه رتبه­ ها متفاوت است-این رتبه 2 بود (یک رتبه متوسط و وحشتناک). شکل نمودار سمت راست هفت بازبین­ نگر را روی محور افقی و رتبه هایشان را روی محور عمودی ترسیم می کند. همچنین، یک خط افقی  نقطه چین وجود دارد که میانگین رتبه ­ها را نشان می­ دهد (43/4، همانگونه که آن رخ می ­دهد). باید روشن باشد که همه نمرات به غیر از یکی در نزدیکی این خط قرار می­ گیرند. نمره 2 خیلی متفاوت است و تا حدی پایین­تر از میانگین قرار می­ گیرد. این نمره مثالی از یک داده پرت است-یک شخص غیرمعمول و عجیب (ببخشید من نمره را معنی می­ کنم) که با بقیه بشریت (مجموع داده­ها) فرق می­ کند. خط تیره افقی میانگین نمرات را در زمانی نشان می­ دهد که داده پرت در نظر گرفته نشده است (83/4). این خط نسبت به میانگین اصلی بالاتر است و نشان می­ دهد که میانگین با نادیده گرفتن این نمره افزایش می­ یابد (تقریباً 4/0). این مثال نشان می­ دهد که چگونه تنها یک نمره می­ تواند پارامتری مانند میانگین را در یک جهت تحت تاثیر قرار دهد؛ اولین رتبه (2) میانگین را پایین می ­کشد. ممکن است مشتریان جدید بر اساس این برآورد دارای سوگیری به اشتباه نتیجه بگیرند که کتاب، نسبت به آنچه جامعه درباره کتاب فکر می­کند، بد است.

مثال نشان می­ دهد که داده­ه ای پرت نه تنها ممکن است برآورد پارامتر را دچار سوگیری کنند، بلکه حتی اثر بیشتری روی خطای همراه با آن برآورد دارند. برای مثال، تعداد دوستان 5 مدرس آمار را بررسی کردیم. داده­ها شامل اعداد 1، 3، 4، 3، 2 بودند، میانگین 6/2 بود و مجموع مجذورات خطا 2/5 بود. اجازه دهید یکی از نمرات را با داده پرت بوسیله تغییر 4 به 10 جایگزین کنیم. داده ها حالا شامل 1، 3، 10، 3 و 2 هستند.

اگر خودآزمایی را انجام داده باشید، باید بیابید که میانگین مجموعه داده­ها با داده پرت برابر با 8/3 و مجموع مجذورات خطا برابر با 8/50 است. سمت چپ شکل این مقادیر را نشان می­ دهد؛ آن مجموع مجدورات خطا (محور-y) همراه با مقادیر بالقوه متفاوت میانگین (پارامتری که ما در حال برآورد هستیم، b) را نشان می دهد. برای هر دو مجموعه داده های اصلی و مجموعه داده­های با داده پرت، برآورد میانگین، یک برآورد بهینه است: برآوردی با حداقل خطا است که می­توانید بر اساس این واقعیت بگویید که منحنی­ها روی مقادیر میانگین (6/2 و 8/3) به هم نزدیک می­شوند. هرچند، حضور داده پرت، منحنی را به سمت راست می کشد (یعنی، میانگین را افزایش می­دهد) و آن را به طرف بالا می برد (یعنی، مجموع مجذورات خطا را بزرگتر می کند). با مقایسه مقدار جابجایی افقی منحنی نسبت به جابجایی عمودی، باید (امیدوارم) درک روشنی در این مورد کسب کنید که داده­های پرت بر مجموع مجذورات خطا نسبت به برآورد پارامترش به طور برجسته ­تری اثر می­ گذارند. این به دلیل استفاده از مجذورات خطا می ­باشد. بنابراین، هرسوگیری ایجاد شده توسط داده پرت با این حقیقت که انحرافات مجذور شده ­اند، بزرگ­نمایی می­ شود.

دیدیم که داده­های پرت می­توانند برآوردهای پارامترها (مانند میانگین) را دچار سوگیری کنند و همچنین به طور قابل توجه ­ای بر مجموع مجذورات خطاها اثر بگذارد. این نکته آخر مهم است، زیرا مجموع مجذورات خطا برای محاسبه انحراف استاندارد استفاده می ­شوند که این هم به نوبه خود برای برآورد خطای استاندارد استفاده می­ شود و خود خطای استاندارد برای محاسبه فواصل اطمینان حول برآورد پارامتر استفاده می­ شود. بنابراین، اگر مجموع مجذورات دچار سوگیری شود، به همین صورت، خطای استاندارد و فواصل اطمینان همراه با برآورد پارامتر نیز دچار سوگیری می شوند. به علاوه، بیشتر آماره­ های آزمون مبتنی بر مجموع مجذورات هستند، از اینرو، اینها نیز توسط داده­ های پرت دچار سوگیری خواهند شد.