این مفروضه می تواند دو فرایند اصلی را تحت تاثیر
قرار دهد که ممکن است هنگام برازش مدل ها با دادهها انجام
دهیم:
پارامترها:
اگر از روش حداقل مجذورات برای برآورد پارامترها در مدل استفاده کنیم، پس مساوی بودن واریانس متغیر ملاک در سرتاسر
مقادیر متفاوت متغیر پیشبین به ما برآوردهای بهینه ای خواهد داد.
آزمون
معناداری فرضیه صفر: آمارههای آزمون غالباً فرض میکنند
که واریانس متغیر ملاک در سرتاسر مقادیر متغیر پیش بین مساوی هستند. اگر این مورد
برقرار نباشد، پس این آماره های آزمون دقیق نخواهند بود.
بنابراین،
باید همگنی پراکندگی را برای اطمینان از برآورد پارامترهای که مدل تعریف میکند
و دقیق بودن آزمونهای معناداری فرض کنیم (همچنین، به عنوان تجانس واریانس
شناخته شده است).
در
طرحهای
که چندین گروه از شرکتکنندگان را آزمون میکنید، این مفروضه بدین معنی
است که هر یک از نمونهها از جامعههای با واریانس یکسان میآیند.
در طرحهای
همبستگی، این مفروضه بدین معنی است که واریانس متغیر ملاک باید در همه سطوح متغیر
پیشبین
ثابت باشد. به عبارت دیگر، هنگامی که سطوح متغیر پیشبین را
بررسی میکنید،
واریانس متغیر ملاک نباید تغییر کند. اجازه دهید این ایده را با یک مثال نشان
دهیم. یک صداشناس به بررسی اثرات صدای کنسرتها روی
شنوایی افراد علاقمند بود. بنابراین، او تصمیم گرفت تا 10 فرد را به توری با
بلندترین باند موسیقی (موتورهد) بفرستد. این افراد به کنسرتهای در
بریکسون (لندن)، برینگتون، برستول، ادینبورگ، نیوکاسل، کاردیف و دوبلین رفتند و
بعد از هر کنسرت، صداشناس تعداد ساعاتی را اندازه گرفت که این افراد صدای زنگ را
در گوش خودشان میشنیدند.
بالای
شکل تعداد ساعاتی را نشان میدهد که هر فرد صدای زنگ را در گوشش
بعد از هر کنسرت شنیده است (هر فرد با دایره نشان داده شده است). مربع ها میانگین
تعداد ساعاتی زنگ زدن گوش بعد از هر کنسرت را نشان می دهد. این میانگین ها بوسیله
یک خط چنان متصل شده اند که می توانیم گرایش کلی دادهها را
ببینیم. برای هر کنسرت، دایره ها نمراتی هستند که بر اساس آنها میانگین محاسبه شده
است. می توانیم در هر دو نمودار ببینیم که همگام با حضور در کنسرت های بیشتر،
میانگین ها افزایش می یایند. بنابراین، بعداز کنسرت اول، گوشها تقریباً 12 ساعت،
اما، بعداز کنسرت دوم، 20-15 ساعت، و شب آخر تور، 50-45 ساعت (دو روز) زنگ زدند.
بنابراین، کنسرت روی زنگ زدن گوش یک اثر تراکمی دارد. نمودارها برحسب میانگی نها
(که تقریباً مشابه هستند) متفاوت نیستند، اما در پراکندگی نمره ها حول میانگین
تفاوت وجود دارد. پایین شکل 5.7 داده ها حذف و بجای آنها از میله برای نمایش
دامنه تغییرات شکل بالا استفاده شده است. در نمودار سمت چپ، میله های سبز تقریباً
طول یکسانی دارند. این طول یکسان به ما میگوید که پراکندگی نمرات حول میانگین تقریباً
در هر کنسرت مشابه است. این آن چیزی است که تجانس واریانس یا همگنی پراکندگی معنی
می کنیم؛ پراکندگی نمرات برای افت شنیداری در هر سطح از متغیر کنسرت مشابه است
(یعنی، پراکندگی نمرات در بریکسون (لندن)، برینگتون، برستول، ادینبورگ، نیوکاسل،
کاردیف و دوبلین مشابه است). سمت راست شکل یک سناریو متفاوت را نشان میدهد: نمرات
بعد از کنسرت بریستون (که دوباره با خطوط سبز در بخش پایین شکل نشان داده شده است)
به طور نسبتاً محکمی حول میانگین قرار گرفته اند (فاصله عمودی از پایینترین نمره
تا بالاترین نمره کوچک است)، اما بعداز دوبلین (برای مثال) نمرات حول میانگین خیلی
پراکنده تر هستند (فاصله عمودی از کمترین نمره تا بالاترین نمره بزرگ است). در
کل، طول میله های سبز سمت راست متفاوت می باشند؛ یعنی، پراکندگی نمرات در هر
کنسرت متفاوت است. این سناریو یک مثال از عدم تجانس واریانس یا ناهمگنی پراکندگی است: در برخی از سطوح متغیر کنسرت،
واریانس نمرات نسبت به سطوح دیگر متفاوت است (از نظر نمایش هندسی، فاصله عمودی از
پایین ترین تا بالاترین نمره بعداز کنسرتهای مختلف متفاوت است).
از
لحاظ برآورد کردن پارامتر در یک مدل خطی، اگر تجانس واریانس برقرار باشد، پس
برآوردهای مبتنی بر روش حداقل مجذورات بهینه خواهند بود. اگر واریانسها برای
متغیر ملاک در امتداد متغیر پیش بین متفاوت باشند، پس برآورد پارامترها درون مدل
بهینه نخواهد بود. روش حداقل مجذورات برآوردهای «بدون سوگیری» از پارامترها را
تولید خواهد کرد، حتی وقتی که تجانس واریانس را نتوان پذیرفت، اما می توان به
برآوردهای بهتری با استفاده از روشهای متفاوت، برای مثال، با استفاده از حداقل
مجذورات وزنی دست یافت (در این روش به هر مورد با
تابع واریانس آن وزن داده شده است). بنابراین، اگر به دنبال برآورد پارامترهای مدل
در نمونه خودتان هستید، پس در بیشتر موارد لازم نیست نگران تجانس واریانس باشید:
روش حداقل مجذورات برآوردهای بدون سوگیری تولید خواهد کرد (هایس و کای، 2007).
هرچند،
عدم تجانس واریانس، سوگیری و ناهمسانی را در برآورد خطای استاندارد همراه با
برآوردهای پارامتر در مدل ایجاد می کند (هایس و کای، 2007). به همین ترتیب، فواصل
اطمینان و آزمونهای معناداری برای برآوردهای پارامتر دچار سوگیری خواهند شد، زیرا
آنها با استفاده از خطای استاندارد محاسبه میشوند. فواصل اطمینان ممکن است «بی
نهایت اشتباه» باشند، وقتی تجانس
واریانس/همگنی پراکندگی برقرار نباشد (ویلکاکس، 2010). بنابراین، اگر میخواهید
فواصل اطمینان حول برآوردهای پارمتر مدل یا آزمون معناداری مدل یا برآوردهای
پارامتر آن را بررسی کنید، پس تجانس واریانس مهم می باشد. برخی از آماره های آزمون
طراحی شدهاند تا دقیق باشند، حتی وقتی این مفروضه نقض شود. اینها را در فصول
مناسب بحث خواهیم کرد.
گروه
آماری دانش گستر با مدیریت دکتر سید محی الدین بهاری