با توزیع طبیعی َآشنا شدیم و بنابراین، می دانیم توزیع طبیعی شبیه چیست و آن را
درک کردیم (امیدوارم). توزیع طبیعی مربوط به بسیاری از کارهای است که هنگام برازش
مدل با داده ها و ارزیابی آنها انجام می دهیم:
· برآوردهای پارامتر:
میانگین یک پارامتر است و در بخش داده های پرت دیدیم که نمرات
افراطی می توانند آن را دچار سوگیری کنند. این نشان می دهد که برآوردهای پارامتر
تحت تاثیر توزیعهای غیر-طبیعی (از قیبل توزیع های با داده های پرت) قرار می گیرند.
میزان سوگیری در برآورد پارامترها توسط توزیعهای غیر-طبیعی متفاوت می باشند. برای
مثال، میانه نسبت به میانگین کمتر دچار سوگیری میشود.
· فواصل اطمینان: از
مقادیر توزیع طبیعی استاندارد برای محاسبه فواصل اطمینان حول یک
برآورد پارامتر (برای مثال، میانگین یا b در معادله
(2.4)) استفاده می کنیم. استفاده از مقادیر توزیع طبیعی استاندارد تنها زمانی
منطقی است که برآوردهای پارامتر واقعاً از توزیع بیایند.
· آزمودن معناداری فرضیه صفر: اگر میخواهیم یک فرضیه درباره یک مدل (و بنابراین،
برآوردهای پارامتر در مدل) را با استفاده از چارچوب استاندارد بیازمائیم. میپنداریم که برآوردهای پارامتر یک توزیع طبیعی
دارند. این را فرض میکنیم، زیرا آماره آزمون مورد استفاده توزیع های مرتبط با توزیع طبیعی (از قبیل توزیع
های t، F و خی دو) دارد. بنابراین، اگر برآوردهای
پارامتر به طور طبیعی توزیع شده باشند، این آماره های آزمون و مقادیر-P دقیق خواهند بود.
· خطاها: می دانیم که برازش هر مدل با مقداری خطا همراه است (مدل
متغیر ملاک را کامل پیش بینی نخواهد کرد). همچنین، می توانیم خطا را برای
هر داده (انحراف یا باقیمانده نام گرفت) محاسبه کنیم. اگر این باقیماندهها به طور
طبیعی در جامعه توزیع شده باشند، پس استفاده از روش حداقل مجذورات برای برآورد
پارامتر (b ها در معادله )نسبت به سایر روشها،
برآوردهای بهتری تولید خواهد کرد.
بیشتر افراد «مفروضه طبیعی بودن» را چنین
معنی میکنند که دادهها باید به طور طبیعی توزیع شده باشند. هرچند، این چیزی نیست
که معنی میدهد. ما روشهای را مورد توجه قرار دادیم که در این روشها طبیعی بودن
ممکن است سوگیری را نشان دهد و این فهرست اشاره می کند که «مفروضه طبیعی بودن»
ممکن است چیزهای متفاوتی در زمینه های متفاوت معنی دهد:
1.
برای اینکه فواصل
اطمینان حول یک برآورد از پارامتر دقیق باشد، این برآورد باید از توزیع طبیعی بیاید.
2.
برای اینکه آزمونهای معناداری مدلها (و برآوردهای
پارامتری که آنها را تعریف میکند) دقیق باشند،
توزیع نمونهگیری ویژگی مورد آزمون باید طبیعی باشد. برای
مثال، اگر در حال آزمون این سوال هستیم که آیا دو میانگین متفاوت هستند، داده ها
لازم نیست به طور طبیعی توزیع شده باشد، بلکه توزیع نمونه گیری میانگینها (یا
تفاوت بین میانگین ها) باید طبیعی باشند. به همین نحوه، اگر در حال بررسی ارتباط
بین متغیرها هستید، آزمونهای معناداری برآورد روابط (bها
در معادله (2.4)) تنها در زمانی دقیق تعریف خواهند شد که توزیع نمونه گیری برآورد
طبیعی باشد.
3.
برای اینکه برآورد
پارامترهای تعریف کننده مدل بهینه باشند (داشتن حداقل خطای ممکن دادهها)، باقیمانده ها در جامعه باید به طور طبیعی توزیع شده باشد. این عمدتاً زمانی درست است که از روش
حداقل مجذورات معمول استفاده کنیم.
این تصور اشتباه درباره ی نیاز به توزیع طبیعی در داده ها به احتمال زیاد از این حقیقت سرچشمه میگیرد که اگر دادهها به طور طبیعی توزیع شده باشند، پس منطقی است که فرض کنیم خطاها در مدل و توزیع نمونهگیری نیز چنین هستند (به یاد داشته باشید، دسترسی مستقیمی به توزیع نمونهگیری نداریم، بنابراین، باید حدس های آموخته شده درباره شکل آن بزنیم). بنابراین، مفروضه طبیعی بودن گرایش دارد تا بدین صورت ترجمه شود که «داده هایتان باید به طور طبیعی توزیع شده باشند»، علیرغم این حقیقت که در واقعیت به این معنی نیست
گروه آماری دانش گستر زیر نظر دکتر سید محی الدین بهاری