640 likes | 1.5k Views
رگرسیون چندگانه Multiple Regression. موسوی ندوشنی بهار 1387. مدل چند متغیره. در رگرسیون چند متغیره رابطه به شرح زیر است: که میتوان آن را مانند یک متغیره برای حالت چند متغیره نوشت:
E N D
رگرسیون چندگانهMultiple Regression موسوی ندوشنی بهار 1387 دانشگاه صنعت آب و برق
مدل چند متغیره در رگرسیون چند متغیره رابطه به شرح زیر است: که میتوان آن را مانند یک متغیره برای حالت چند متغیره نوشت: که در ŷ برآورد مقدار y است. اگر مشاهده اول برابر واحد فرض شود، مقدار b0 همان مقدار ثابت (در حالت خطی برابر عرض از مبداء) است. دانشگاه صنعت آب و برق
عملیات رگرسیون با نشانگذاری ماتریسی معادله رگرسیون را میتوان بهصورت زیر نوشت: که نمایش ماتریسی آن بهصورت زیر است: دانشگاه صنعت آب و برق
ماتریس واریانس-کوواریانس در این ماتریس متقارن، عناصر قطری واریانس و بقیه عناصر کوواریانس هستند. دانشگاه صنعت آب و برق
دنباله عملیات رگرسیون با نشانگذاری ماتریسی فرم ماتریسی CiY یعنی کوواریانس بین Xi و Y بهصورت زیر است. بنابراین برآورد مقادیر بهصورت زیر است. دانشگاه صنعت آب و برق
عملیات رگرسیون با نشانگذاری ماتریسی روش دوم اگر معادله رگرسیون به صورت زیر باشد. اگر ماتریس دادههای خام به صورت زیر باشد. معادله فوق را میتوان با استفاده از ضرایب همبستگی حل نمود. دانشگاه صنعت آب و برق
دنباله عملیات رگرسیون با نشانگذاری ماتریسی روش دوم دستگاه معادلات زیر را میتوان به صورت زیر داشت. که در آن αi ضرایب، rij همبستگیهای میان متغیرهای مستقل و ryj همبستگیهای بین متغیرهای مستقل و متغیر وابسته یعنی Y است. دانشگاه صنعت آب و برق
دنباله عملیات رگرسیون با نشانگذاری ماتریسی روش دوم اگر دستگاه معادلات را به فرم ماتریسی بنویسید نتیجه میشود. Rijαj=Ryj و برای محاسبه bj از فرمول زیر استفاده میشود. bj ضرایب رگرسیون sy انحراف معیار متغیر وابسته sj انحراف معیار متغیرهای مستقل ضمنا رابطه R2 و rykها دانشگاه صنعت آب و برق
دنباله عملیات رگرسیون با نشانگذاری ماتریسی روش دوم و سرانجام مقدار ثابت معادله به صورت زیر است. همانطور که قبلا نیز مشاهده شد، ضریب تعیین به شرح زیر است. دانشگاه صنعت آب و برق
دنباله عملیات رگرسیون با نشانگذاری ماتریسی باقیمانده به صورت e=y- ŷ است. متوسط خطاها یعنی E(e)ē=0 و واریانس خطا برابر با Var(e)=eTe است. واریانس ضرایب () عبارتست از: به ازاء یک X خاص میتوان یک مقدار برای Y پیشگویی نمود. دانشگاه صنعت آب و برق
فاصله اطمینان برای ضرایب معادله فاصله اطمینان 100(1-) برای ضرایب j عبارتست از: که در آن Cjj عناصر قطری (XTX)-1 است و واریانس خطای برآورد برابر است با: که m تعداد ضرایب برآورد شده است. دانشگاه صنعت آب و برق
فاصله اطمینان برای مقادیر برآورد شده فاصله اطمینان 100(1-) برای یک مقدار y0 که توسط یک نقطه x0 در فضای چند بعدی تولید شده و مقدار برآورد شده آن ŷ0 است که عبارتست از: دانشگاه صنعت آب و برق
مثال 1 به دادههای زیر توجه کنید. X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4 X2: 4,4,4,3,6,6,3,4,3,3,5,5,9,8,6,7,5,5,7,7 Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10 معادله رگرسیون حاصل از دادهها به شرح زیر است: ضریب تعیین برابر R2=0.5054 است. آزمون F: دانشگاه صنعت آب و برق
تحلیل رگرسیون در مثال 1 وقتی بیش از یک متغیر در معادله رگرسیون قرار دارد، آنگاه تحلیل رگرسیون پیچیدهتر میشود. اولین بررسی آنچه را که X1 و X2 (با هم و جدا از هم) به رگرسیون میافزایند به وضوح نشان میدهد. آیا اضافه کردن X2 به معادله رگرسیون پیشبینی Y را به طرز معنیداری بالا میبرد؟ اکنون فقط متغیر X1 در نظر گرفته میشود. که معنی دار است. دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 1 اکنون فقط متغیر X2 در نظر گرفته میشود. در سطح مرسوم 0.05 معنیدار نمیشود. اما در سطح حدود 0.08 معنیدار است. بنابراین میتوان موضوع را دنبال نمود. با بررسی جداگانه X1 و X2 معلوم شد که X1 بسیار بهتر از X2 متغیر وابسته یعنی Y را پیشبینی میکند. اما یک سوال را میتوان مطرح کرد و راجع به آن تامل نمود. سوال این است: آیا اضافه کردن X2 بر X1 پیشبینی را بالا میبرد. قبلا ملاحظه شد که R2y.1=0.45 و R2y.12=0.51 است. بنابراین، با اضافه کردن X2 بر X1، R2 به مقدار 0.0518 بالا میرود. با این وجود این مشارکت اضافی در رگرسیون به لحاظ آماری معنیدار نیست. اما به تفاوت دقت کنید. در رگرسیون Y تنها بر X2، R2 به مقدار 0.16 به دست میآید. در حالی که اضافه کردن X2 بر X1، ٔR2 را فقط 0.05 بالا برد. این تفاوت یکی از خصوصیات مهم رگرسیون چندگانه را نشان میدهد. دانشگاه صنعت آب و برق
بیان بعضی از ملاحظات درباره رگرسیون چندگانه اگر همبستگی بین X1 و X2 معادل صفر باشد، r2 بین X1 و Y را میتوان بر r2 بین X2 و Y افزود و R2y.12 را بدست آورد. ولی، این حالت کمتر رخ میدهد.که همبستگی بین دو متغیر، معادل صفر باشد. دانشگاه صنعت آب و برق
تجزیه و تحلیل مدل رگرسیون stepwise همانطور که قبلا نیز اشاره شد در رگرسیون از مدل زیر استفاده میشود. اما این که کدامیک از Xiها مهمتر هستند معلوم نیست. البته در یک سیستم علت و معلولی کاملا معین، این سوال مطرح نیست. ولی در هیدرولوژی قضیه همیشه روش نیست. جریان ماهانه در یک ایستگاه را در نظر بگیرید، این جریان میتواند متاثر از بارندگی این ماه باشد اما با توجه به سیستم تاخیر بارندگی-رواناب، بارندگی ماه قبل نیز میتواند در ایجاد رواناب موثر واقع شود. هدف از رگرسیون stepwise این است که معادله پیشگویی را بر اساس متغیرهای موثرتر بسط دهیم. دانشگاه صنعت آب و برق
مثال 2 به دادههای زیر توجه کنید. X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4 X2: 5,4,5,3,6,4,6,4,3,3,3,6,9,8,9,6,4,5,8,9 X3: 1,2,4,4,5,6,3,3,7,7,8,9,5,4,5,5,7,8,8,7 Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10 معادله رگرسیون حاصل از دادهها به شرح زیر است: ضریب تعیین برابر R2=0.6637 است. با آزمون F=10.526<3.239 رگرسیون معنیدار است. دانشگاه صنعت آب و برق
تحلیل رگرسیون در مثال 2 • در آزمون آماری معنیدار بودن دو شیوه ذکر میشود. • اولین روش از نسبتهای t (یا نسبتهای F) استفاده میکند. • دومین روش از R2ها و نسبتهای F سود میجوید. • در باره کاربرد نسبت t برای آزمون معنیدار بودن آماری وزنهای رگرسیون سوال مهمی پیش میآید: آیا رگرسیون متغیر وابسته بر یک متغیر مستقل معین، پس از به حساب آوردن تاثیرات متغیرهای مستقل دیگر، به لحاظ آماری معنیدار است؟ دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 خطای استاندارد برآورد خطای استاندارد ضریبهای b را میتوان به چند روش محاسبه نمود که یکی از آنها به شرح زیر است. که SEbj خطای استاندارد j امین وزن b است. SE2est مجذور خطای استاندارد است. ssxj مجموع مجذورات متغیر j است. R2 مجذور همبستگی چند متغیری بین متغیر j (متغیر وابسته) و بقیه متغیرهای مستقل است. دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 در مورد ضریب اول میتوان نوشت: برای بدست آوردن R2j (مجذور همبستگی چند متغیری بین j امین متغیر مستقل و متغیرهای مستقل دیگر است.) میتوان نوشت. rjjمقادیر واقع روی قطر وارون ماتریس همبستگی میان متغیرهای مستقل است. نسبت t دارای n-k-1 درجه آزادی دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 R2 های لازم به صورت زیر محاسبه میشوند. اکنون SEbj به صورت زیر محاسبه میشوند. دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 اولین نسبت t عبارتست از: دومین نسبت t عبارتست از: دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 • سومین نسبت t عبارتست از: • ضریبهای b1 و b2 با درجه آزادی 16 در سطح 0.05 معنیدار هستند ولی b3 در این سطح معنیدار نیست. • معنیدار بودن آماری متغیرهای اضافه شده به معادله رگرسیون • فرض کنید که فقط X1 و X2 یعنی اولین و دومین متغیر مستقل و متغیر وابسته، Y مورد نظر قرار گیرد و یک تحلیل رگرسیون برای دادهها انجام شود. در این صورت شاخصهای آماری ضروری به شرح زیر است. دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 معادله رگرسیون مقدار F و R2y.12 عبارتست از: با توجه به F با درجه آزادیهای 2 و 17 در سطح 0.05 معنیدار است. وقتی هر سه متغیر مستقل در معادله بودند R2 و F به قرار زیر بدست آمدند. اکنون باید به این سوال پاسخ داد: آیا اضافه کردن X3 دقت پیشبینی را به طرز معنیداری بالا میبرد؟ برای پاسخ به این سوال باید یک نسبت F دیگر محاسبه شود. دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 فرمول نسبت F چنین است: نسبت F حاصله معنیدار نیست. بنابراین، متغیر X3 پیشبینی Y را به طرز معنیداری بالا نمیبرد. برای نشاندادن تعمیمپذیری آزمون مزبور، که حایز اهمیت است، معادله دارای شکل زیر است. دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2 اکنون اضافه شدن متغیر X2 را بر X1 آزموده میشود. نسبت F به شرح زیر است: نسبت F حاصله، با 1 و17 درجه آزادی، در سطح 0.05 معنیدار است. بنابراین، متغیر 2، رگرسیون را به طرز معنیداری بالا میبرد. دانشگاه صنعت آب و برق