گروه آماری دانش گستر

گروه آماری دانش گستر

جزئیات وبلاگ

image

مفروضه تجانس واریانس

مفروضه همگنی پراکندگی/تجانس واریانس

 این مفروضه می تواند دو فرایند اصلی را تحت تاثیر قرار دهد که ممکن است هنگام برازش مدل ها با داده­ها انجام دهیم:

پارامترها: اگر از روش حداقل مجذورات برای برآورد پارامترها در مدل استفاده کنیم، پس  مساوی بودن واریانس متغیر ملاک در سرتاسر مقادیر متفاوت متغیر پیش­بین به ما برآوردهای بهینه ­ای خواهد داد.

 آزمون معناداری فرضیه صفر: آماره­های آزمون غالباً فرض می­کنند که واریانس متغیر ملاک در سرتاسر مقادیر متغیر پیش بین مساوی هستند. اگر این مورد برقرار نباشد، پس این آماره های آزمون دقیق نخواهند بود.

بنابراین، باید همگنی پراکندگی را برای اطمینان از برآورد پارامترهای که مدل تعریف می­کند و دقیق بودن آزمون­های معناداری فرض کنیم (همچنین، به عنوان تجانس واریانس شناخته شده است).

در طرح­های که چندین گروه از شرکت­کنندگان را آزمون می­کنید، این مفروضه بدین معنی است که هر یک از نمونه­ها از جامعه­های با واریانس یکسان می­آیند. در طرح­های همبستگی، این مفروضه بدین معنی است که واریانس متغیر ملاک باید در همه سطوح متغیر پیش­بین ثابت باشد. به عبارت دیگر، هنگامی که سطوح متغیر پیش­بین را بررسی می­کنید، واریانس متغیر ملاک نباید تغییر کند. اجازه دهید این ایده را با یک مثال نشان دهیم. یک صداشناس به بررسی اثرات صدای کنسرت­ها روی شنوایی افراد علاقمند بود. بنابراین، او تصمیم گرفت تا 10 فرد را به توری با بلندترین باند موسیقی (موتورهد) بفرستد. این افراد به کنسرت­های در بریکسون (لندن)، برینگتون، برستول، ادینبورگ، نیوکاسل، کاردیف و دوبلین رفتند و بعد از هر کنسرت، صداشناس تعداد ساعاتی را اندازه گرفت که این افراد صدای زنگ را در گوش خودشان می­شنیدند.

بالای شکل تعداد ساعاتی را نشان می­دهد که هر فرد صدای زنگ را در گوشش بعد از هر کنسرت شنیده است (هر فرد با دایره نشان داده شده است). مربع ها میانگین تعداد ساعاتی زنگ زدن گوش بعد از هر کنسرت را نشان می­ دهد. این میانگین ها بوسیله یک خط چنان متصل شده اند که می توانیم گرایش کلی داده­ها را ببینیم. برای هر کنسرت، دایره ها نمراتی هستند که بر اساس آنها میانگین محاسبه شده است. می توانیم در هر دو نمودار ببینیم که همگام با حضور در کنسرت های بیشتر، میانگین ها افزایش می یایند. بنابراین، بعداز کنسرت اول، گوش­ها تقریباً 12 ساعت، اما، بعداز کنسرت دوم، 20-15 ساعت، و شب آخر تور، 50-45 ساعت (دو روز) زنگ زدند. بنابراین، کنسرت روی زنگ زدن گوش یک اثر تراکمی دارد. نمودارها برحسب میانگی ن­ها (که تقریباً مشابه هستند) متفاوت نیستند، اما در پراکندگی نمره ها حول میانگین تفاوت وجود دارد. پایین شکل 5.7 داده ­ها حذف و بجای آنها از میله برای نمایش دامنه تغییرات شکل بالا استفاده شده است. در نمودار سمت چپ، میله­ های سبز تقریباً طول یکسانی دارند. این طول یکسان به ما می­گوید که پراکندگی نمرات حول میانگین تقریباً در هر کنسرت مشابه است. این آن چیزی است که تجانس واریانس یا همگنی پراکندگی معنی می­ کنیم؛ پراکندگی نمرات برای افت شنیداری در هر سطح از متغیر کنسرت مشابه است (یعنی، پراکندگی نمرات در بریکسون (لندن)، برینگتون، برستول، ادینبورگ، نیوکاسل، کاردیف و دوبلین مشابه است). سمت راست شکل یک سناریو متفاوت را نشان می­دهد: نمرات بعد از کنسرت بریستون (که دوباره با خطوط سبز در بخش پایین شکل نشان داده شده است) به طور نسبتاً محکمی حول میانگین قرار گرفته ­اند (فاصله عمودی از پایین­ترین نمره تا بالاترین نمره کوچک است)، اما بعداز دوبلین (برای مثال) نمرات حول میانگین خیلی پراکنده ­تر هستند (فاصله عمودی از کمترین نمره تا بالاترین نمره بزرگ است). در کل، طول میله ­های سبز سمت راست متفاوت می ­باشند؛ یعنی، پراکندگی نمرات در هر کنسرت متفاوت است. این سناریو یک مثال از عدم تجانس واریانس یا ناهمگنی پراکندگی است: در برخی از سطوح متغیر کنسرت، واریانس نمرات نسبت به سطوح دیگر متفاوت است (از نظر نمایش هندسی، فاصله عمودی از پایین ترین تا بالاترین نمره بعداز کنسرت­های مختلف متفاوت است).

از لحاظ برآورد کردن پارامتر در یک مدل خطی، اگر تجانس واریانس برقرار باشد، پس برآوردهای مبتنی بر روش حداقل مجذورات بهینه خواهند بود. اگر واریانس­ها برای متغیر ملاک در امتداد متغیر پیش ­بین متفاوت باشند، پس برآورد پارامترها درون مدل بهینه نخواهد بود. روش حداقل مجذورات برآوردهای «بدون سوگیری» از پارامترها را تولید خواهد کرد، حتی وقتی که تجانس واریانس را نتوان پذیرفت، اما می توان به برآوردهای بهتری با استفاده از روش­های متفاوت، برای مثال، با استفاده از حداقل مجذورات وزنی دست یافت (در این روش به هر مورد با تابع واریانس آن وزن داده شده است). بنابراین، اگر به دنبال برآورد پارامترهای مدل در نمونه خودتان هستید، پس در بیشتر موارد لازم نیست نگران تجانس واریانس باشید: روش حداقل مجذورات برآوردهای بدون سوگیری تولید خواهد کرد (هایس و کای، 2007).

هرچند، عدم تجانس واریانس، سوگیری و ناهمسانی را در برآورد خطای استاندارد همراه با برآوردهای پارامتر در مدل ایجاد می­ کند (هایس و کای، 2007). به همین ترتیب، فواصل اطمینان و آزمون­های معناداری برای برآوردهای پارامتر دچار سوگیری خواهند شد، زیرا آنها با استفاده از خطای استاندارد محاسبه می­شوند. فواصل اطمینان ممکن است «بی نهایت اشتباه» باشند، وقتی تجانس واریانس/همگنی پراکندگی برقرار نباشد (ویلکاکس، 2010). بنابراین، اگر می­خواهید فواصل اطمینان حول برآوردهای پارمتر مدل یا آزمون معناداری مدل یا برآوردهای پارامتر آن را بررسی کنید، پس تجانس واریانس مهم می باشد. برخی از آماره های آزمون طراحی شده­اند تا دقیق باشند، حتی وقتی این مفروضه نقض شود. این­ها را در فصول مناسب بحث خواهیم کرد.

گروه آماری دانش گستر با مدیریت دکتر سید محی الدین بهاری

انجام فصل چهار پایان نامه با بررسی دقیق مفروضه ها تخصص ماست