گروه آماری دانش گستر

گروه آماری دانش گستر

جزئیات وبلاگ

image

مدل های آماری

مدل های آماری

همه مدل های آماری می توانند در یک معادله ساده و قابل فهم توصیف شوند، هر چیزی عموماً در آمار به معادله زیر منتهی می شود:

(2.1)                                                    i خطا+ (مدل)= i متغیر ملاک

معادله دقیقاً بدین معنی است که داده های مشاهده شده می توانند از روی مدلی پیش بینی شوند که برای تطابق با داده ها به اضافه مقداری خطا انتخاب کردیم. «مدل» در معادله بر اساس طرح مطالعه، نوع داده­ ها، و هدف شما تغییر خواهد کرد. در نتیجه، پیچیدگی مدل نیز می ­تواند تغییر کند. اهمیت ندارد معادله چقدر ممکن است مدل را توصیف کند، می توانید فقط چشم هایتان را به هم نزدیک کنید، دوباره آن را به عنوان کلمه «مدل» تصور کنید و به معادله بالا فکر کنید. ما یک متغیر ملاک را از روی تعدادی مدل پیش­ بینی می­ کنیم (که ممکن است خیلی پیچیده باشند یا نباشد)، اما متغیر ملاک به طور کامل پیش بینی نخواهد شد. بنابراین، مقداری خطا نیز در آنجا وجود خواهد داشت.

مدل­های آماری از متغیرها و پارامترها تشکیل شده ­اند. همانگونه که دیدیم، متغیرها سازه­ هایی را می­ سنجند که در میان هویت­های مستقل نمونه تغییر می­ کنند و در مقابل، پارامترها از داده­ ها برآورد می­ شوند (بجای اینکه اندازه ­گیری شوند) و (معمولاً) ثابت هستند و برخی حقایق اساسی درباره روابط بین متغیرها را در مدل نشان می­ دهند. تعدادی مثال از پارامترهایی که ممکن است، با آنها آشنا باشید: شامل، میانگین، و میانه (این دو شاخص مرکزیت توزیع را برآورد می کنند) و ضرایب همبستگی و رگرسیون (این شاخص ها ارتباط بین دو متغیر را برآورد می کنند) می باشند. آماریست­ها با دادن نمادها و حروف متفاوتی به پارمترهای مختلف (M برای میانگین، r برای همبستگی، b برای ضرایب رگرسیون) در تلاش هستند تا شما را گیج کنند، اما اگر فقط از حرف b استفاده کنیم، استفاده از نمادها کمتر گیج کننده خواهد بود. اگر تنها علاقه ­مند به خلاصه کردن متغیر ملاک، همانند محاسبه میانگین، هستیم، پس هیچ متغیری در مدل نخواهیم داشت، فقط یک پارامتر داریم. بنابراین، می توانیم معادله را به صورت زیر بنویسیم:

(2.2)                                                                            i خطا+ (b)= i ملاک

هر چند، غالباً قصد داریم یک متغیر ملاک را از روی یک متغیر پیش­ بینی کنیم. معمولاً متغیرهای پیش بین را با حرف X نشان می دهیم. بنابراین، مدل ما خواهد شد:

(2.3)                                                                         i خطا+ (bXi)= i ملاک

اکنون مقدار متغیر ملاک را برای یک هویت مستقل (i) از نمره آن روی متغیر پیش ­بین (Xi) پیش بینی می­ کنیم. متغیر پیش ­بین یک پارامتر (b) مربوط به خود دارد که این پارامتر به ما درباره­ ی ارتباط بین متغیر پیش­ بین (Xi) و ملاک می گوید.

اگر بخواهیم متغیر ملاک را از روی دو متغیر پیش ­بین پیش­ بینی کنیم، می توانیم متغیر پیش ­بین دیگر را به مدل به صورت زیر اضافه کنیم:

(2.4)                                                                  iخطا+ (b1X1I+ b2X2I)= iملاک

اکنون در حال پیش ­بینی مقدار متغیر ملاک برای هر هویت مستقل (i) از نمره او روی دو متغیر پیش ­بین (X1i و X2i) هستیم. هر متغیر پیش­ بین یک پارامتر (b) مربوط به خود دارد که درباره­ ی ارتباط بین این متغیر پیش ­بین و ملاک می گوید. در هر یک از این معادلات، پرانتزها را اطراف مدل نگه داشتم که لازم نیستند، اما فکر کردم، به شما کمک می­ کند تا ببینید مدل در هر مورد کدام است.

امیدوارم از این بخش فهمیده باشید که ما یک ایده بسیار ساده را دنبال می­ کند: ما می توانیم مقادیر متغیر ملاک را بر اساس نوع مدل پیش­ بینی کنیم. شکل مدل تغییر می­ کند، اما همیشه مقداری خطا وجود دارد، و همیشه پارامترهایی وجود دارند که درباره شکل مدل به ما می­ گویند.

برای پیدا کردن آنچه مدل به نظر می­ رسد، باید پارامترها (یعنی، مقادیر b) را برآورد کنیم. عبارت «برآورد پارامتر» را در آمار بسیار خواهید شنید و ممکن است تعجب کنید که چرا از واژه برآورد استفاده می­ کنیم. مسلماً آمار به اندازه کافی تکامل یافته است که بتوانیم مقادیر را دقیق محاسبه کنیم و آنها را صرفاً تخمین نزنیم. همانگونه که در بالا ذکر کردم، علاقه­مند به استخراج نتیجه ­گیری­هایی درباره جامعه هستیم (چون به جامعه دسترسی نداریم). به عبارت دیگر، ما می خواهیم بدانیم مدلمان چقدر شبیه جامعه کل است. با توجه به اینکه مدل بوسیله پارامترها تعریف می­ شود، این مقادیر به ما می­ گویند که به پارامترها در نمونه توجه نکنیم؛ بلکه به پارامترها در جامعه توجه کنیم. مشکل این است که نمی دانیم پارامترهای جامعه چه مقدار هستند، زیرا جامعه را اندازه نگرفتیم؛ تنها یک نمونه را سنجیده ­ایم. هرچند، می­توانیم از داده­ های نمونه برای برآورد مقدار احتمالی پارامترهای جامعه استفاده کنیم. به همین دلیل، هنگام محاسبه پارامترها بر اساس داده ­های نمونه از کلمه برآورد استفاده می­ کنیم، زیرا آنها تنها برآوردی (یعنی، بهترین حدس) از مقدار واقعی پارامتر در جامعه هستند. اجازه دهید این ایده ها را به یک مدل واقعاً عینی­تر ساده کنیم: میانگین.