گروه آماری دانش گستر

گروه آماری دانش گستر

جزئیات وبلاگ

image

مفروضه توزیع طبیعی یا نرمال داده ها

مفروضه توزیع طبیعی یا نرمال داده ها

با توزیع طبیعی َآشنا شدیم و بنابراین، می دانیم توزیع طبیعی شبیه چیست و آن را درک کردیم (امیدوارم). توزیع طبیعی مربوط به بسیاری از کارهای است که هنگام برازش مدل با داده ها و ارزیابی آنها انجام می­ دهیم:

·    برآوردهای پارامتر: میانگین یک پارامتر است و در بخش داده های پرت دیدیم که نمرات افراطی می­ توانند آن را دچار سوگیری کنند. این نشان می­ دهد که برآوردهای پارامتر تحت تاثیر توزیع­های غیر-طبیعی (از قیبل توزیع­ های با داده های پرت) قرار می­ گیرند. میزان سوگیری در برآورد پارامترها توسط توزیع­های غیر-طبیعی متفاوت می باشند. برای مثال، میانه نسبت به میانگین کمتر دچار سوگیری می­شود.

·    فواصل اطمیناناز مقادیر توزیع طبیعی استاندارد برای محاسبه فواصل اطمینان حول یک برآورد پارامتر (برای مثال، میانگین یا b در معادله (2.4)) استفاده می­ کنیم. استفاده از مقادیر توزیع طبیعی استاندارد تنها زمانی منطقی است که برآوردهای پارامتر واقعاً از توزیع بیایند.

·    آزمودن معناداری فرضیه صفر: اگر می­خواهیم یک فرضیه درباره یک مدل (و بنابراین، برآوردهای پارامتر در مدل) را با استفاده از چارچوب استاندارد بیازمائیم. می­پنداریم که برآوردهای پارامتر یک توزیع طبیعی دارند. این را فرض می­کنیم، زیرا آماره آزمون مورد استفاده توزیع های مرتبط با توزیع طبیعی (از قبیل توزیع های t، F و خی دو) دارد. بنابراین، اگر برآوردهای پارامتر به طور طبیعی توزیع شده باشند، این آماره های آزمون و مقادیر-P دقیق خواهند بود.

·    خطاها: می دانیم که برازش هر مدل با مقداری خطا همراه است (مدل متغیر ملاک را کامل پیش بینی نخواهد کرد). همچنین،  می­ توانیم خطا را برای هر داده (انحراف یا باقیمانده نام گرفت) محاسبه کنیم. اگر این باقیمانده­ها به طور طبیعی در جامعه توزیع شده باشند، پس استفاده از روش حداقل مجذورات برای برآورد پارامتر (b ها در معادله )نسبت به سایر روش­ها، برآوردهای بهتری تولید خواهد کرد.


بیشتر افراد «مفروضه طبیعی بودن» را چنین معنی می­کنند که داده­ها باید به طور طبیعی توزیع شده باشند. هرچند، این چیزی نیست که معنی می­دهد. ما روش­های را مورد توجه قرار دادیم که در این روش­ها طبیعی بودن ممکن است سوگیری را نشان دهد و این فهرست اشاره می ­کند که «مفروضه طبیعی بودن» ممکن است چیزهای متفاوتی در زمینه های متفاوت معنی دهد:

1. برای اینکه فواصل اطمینان حول یک برآورد از پارامتر دقیق باشد، این برآورد باید از توزیع طبیعی بیاید.

2. برای اینکه آزمون­های معناداری مدل­ها (و برآوردهای پارامتری که آنها را تعریف می­کند) دقیق باشند، توزیع نمونه­گیری ویژگی مورد آزمون باید طبیعی باشد. برای مثال، اگر در حال آزمون این سوال هستیم که آیا دو میانگین متفاوت هستند، داده ها لازم نیست به طور طبیعی توزیع شده باشد، بلکه توزیع نمونه ­گیری میانگین­ها (یا تفاوت بین میانگین ها) باید طبیعی باشند. به همین نحوه، اگر در حال بررسی ارتباط بین متغیرها هستید، آزمون­های معناداری برآورد روابط (bها در معادله (2.4)) تنها در زمانی دقیق تعریف خواهند شد که توزیع نمونه­ گیری برآورد طبیعی باشد.

3. برای اینکه برآورد پارامترهای تعریف کننده مدل بهینه باشند (داشتن حداقل خطای ممکن داده­ها)، باقیمانده­ ها در جامعه باید به طور طبیعی توزیع شده باشد. این عمدتاً زمانی درست است که از روش حداقل مجذورات معمول استفاده کنیم.

این تصور اشتباه درباره­ ی نیاز به توزیع طبیعی در داده ­ها به احتمال زیاد از این حقیقت سرچشمه می­گیرد که اگر داده­ها به طور طبیعی توزیع شده باشند، پس منطقی است که فرض کنیم خطاها در مدل و توزیع نمونه­گیری نیز چنین هستند (به یاد داشته باشید، دسترسی مستقیمی به توزیع نمونه­گیری نداریم، بنابراین، باید حدس های آموخته شده درباره شکل آن بزنیم). بنابراین، مفروضه طبیعی بودن گرایش دارد تا بدین صورت ترجمه شود که «داده هایتان باید به طور طبیعی توزیع شده باشند»، علیرغم این حقیقت که در واقعیت به این معنی نیست

گروه آماری دانش گستر زیر نظر دکتر سید محی الدین بهاری

اجرای تحلیل داده با دقت و صحت