910 likes | 1.64k Views
همبستگی و رگرسیون Correlation and Regression. موسوی ندوشنی پاییز 1386. مقدمه (زوج دادهها). آیا این زوجها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا میتوان معادلهای برای آنها منظور نمود؟ آیا با استفاده از این معادله میتوان درونیابی و یا برونیابی نمود؟. نمودار پراکنش.
E N D
همبستگی و رگرسیونCorrelation and Regression موسوی ندوشنی پاییز 1386 دانشگاه صنعت آب و برق
مقدمه (زوج دادهها) آیا این زوجها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا میتوان معادلهای برای آنها منظور نمود؟ آیا با استفاده از این معادله میتوان درونیابی و یا برونیابی نمود؟ دانشگاه صنعت آب و برق
نمودار پراکنش در این نمودار زوجهای (x,y) به صورت نقاط مجزا از هم در صفحه مختصات ظاهر میشوند. دانشگاه صنعت آب و برق
همبستگی خطی مثبت y y y x x x (a)Positive (b) Strong positive (c) Perfect positive دانشگاه صنعت آب و برق
همبستگی خطی منفی y y y x x x (d) Negative (e) Strong negative (f) Perfect negative دانشگاه صنعت آب و برق
همبستگی غیر خطی y y x x (h) Nonlinear Correlation (g) No Correlation دانشگاه صنعت آب و برق
ضریب همبستگی خطی این ضریب میزان همبستگی خطی بین زوجهای x, y را در نمونه، اندازه میگیرد. ضریب همبستگی خطی جامعه را با علامت نشان میدهند. دانشگاه صنعت آب و برق
تفسیر ضریب همبستگی n • اگر قدر مطلق r بزرگتر از مقادیر جدول مربوط به این ضریب باشد. نتیجه میگیریم که همبستگی خطی معنیدار است. • در غیر اینصورت به اندازه کافی معنیدار نیست. دانشگاه صنعت آب و برق
آزمون فرض راجع به r • آیا همبستگی خطی معنیداری بین دو متغیر وجود دارد. H0: = (no significant linear correlation) H1: (significant linear correlation) • Test statistic: دانشگاه صنعت آب و برق
آماره آزمون t (روش اول) دانشگاه صنعت آب و برق
آماره آزمون r (روش دوم) Reject = 0 Fail to reject = 0 Reject = 0 r = 0.811 1 r = - 0.811 0 -1 Sample data: r = 0.828 آماره آزمون r استفاده از جدول معنیدار بودن r دانشگاه صنعت آب و برق
Is there a significant linear correlation? x Plastic (lb) 0.27 2 1.41 3 2.19 3 2.83 6 2.19 4 1.81 2 0.85 1 3.05 5 y Household n = 8 = 0.05 H0: = 0 H1: 0 Test statistic is r = 0.842 دانشگاه صنعت آب و برق
n = 8 = 0.05 H0: = 0 H1 : 0 Test statistic is r = 0.842 Reject = 0 Fail to reject = 0 Reject = 0 1 - 1 r = - 0.707 0 r = 0.707 Sample data: r = 0.842
رگرسیون • معادله رگرسیون • در حالت کلی (جامعه) معادله خط به صورت زیر است: • با توجه به زوج دادههای اندازهگیری شده معادله رگرسیون عبارتست از: • خط رگرسیون • بهترین خط برازش یافته • خط حاصل از روش حداقل مربعات (least squares) دانشگاه صنعت آب و برق
روش حداقل مربعات برای بیان روش حداقل مربعات، باقیمانده را در نظر بگیرید که به صورت زیر است: واضح است که باید مجموع مربع خطا حداقل شود. یعنی اگر معادله خط را در رابطه بالا جایگذاری کنید، نتیجه میشود که: دانشگاه صنعت آب و برق
دنباله روش حداقل مربعات برای حداقل نمودن عبارت F باید از آن مشتق گرفت و مساوی صفر قرار داد. اگر طرفین معادلات را بر 2 تقسیم کنید و جابجاییهای لازم صورت گیرد، آنگاه به معادلات زیر میرسید که به معادلات نرمال شهرت دارند. دانشگاه صنعت آب و برق
روابط برای محاسبه ضرایب معادله محاسبه شیب خط: محاسبه عرض از مبداء: دانشگاه صنعت آب و برق
نشانگذاریهای مهم در رگرسیون دانشگاه صنعت آب و برق
دنباله نشانگذاریهای مهم در رگرسیون دانشگاه صنعت آب و برق
دنباله نشانگذاریهای مهم در رگرسیون دانشگاه صنعت آب و برق
نمودار معادله رگرسیون دانشگاه صنعت آب و برق
برآوردها • در برآورد مقدار y بر اساس x داده شده، به موارد زیر توجه کنید. • همبستگی خطی معنیداری وجود ندارد. بنابراین بهترین برآورد y برابر با میانگین y است. • اگر همبستگی خطی معنیداری وجود داشت، آنگاه بهترین برآورد مقدار y با جایگزین نمودن مقدار x در داخل معادله رگرسیون بدست میآید. دانشگاه صنعت آب و برق
مثال x Plastic (lb) 0.27 2 1.41 3 2.19 3 2.83 6 2.19 4 1.81 2 0.85 1 3.05 5 y Household b0 = 0.549 b1= 1.48 ŷ= 0.549 + 1.48 (0.50) ŷ= 1.3 مقدار y به ازای x=0.5 را در مثال زیر بدست آورید. دانشگاه صنعت آب و برق
خاصیت باقیماندهها و حداقل مربعات • باقیمانده • برای زوج (x,y) اختلاف y-ŷ را گویند، که y مقدار مشاهده شده و ŷ مقدار برآورد شده میباشند. • حداقل مربعات • خط راست رگرسیون بر اساس حداقل مربع باقیماندهها ترسیم میشود. دانشگاه صنعت آب و برق
تعاریف • انحراف کل • فاصله عمودی y-y یعنی فاصله بین نقطه (x,y) و خط افقی که از میانگین نمونه میگذرد. • انحراف تبیین شده • فاصله عمودی ŷ-y یعنی فاصله بین ŷ و خطی که از میانگین نمونه y میگذرد. • انحراف تبیین نشده • فاصله عمودی y-ŷ یعنی فاصله بین نقطه (x,y) و خط رگرسیون دانشگاه صنعت آب و برق
20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 شکل مربوط به تعاریف y (5, 19) Unexplained deviation (y - ŷ) (5, 13) Total deviation (y - y) Explained deviation (ŷ - y) y = 9 (5, 9) ŷ= 3 + 2x x 0 1 2 3 4 5 6 7 8 9 دانشگاه صنعت آب و برق
روابط بین y، میانگین y و ŷ انحراف تبیین نشده انحراف تبیین شده انحراف کل تغییرات کل تغییرات تبیین شده تغییرات تبیین نشده دانشگاه صنعت آب و برق
تعریف ضریب تعیین دانشگاه صنعت آب و برق
دو آزمون معنیدار بودن مقدار r=0.8423 محاسبه شده است. مقدار r با سطح معنیدار بودن 5% با استفاده از جدول مربوطه برابر با 0.707 میباشد، که 0.8423>0.707 است. بنابراین همبستگی معنیدار می باشد. اگر n تعداد نمونهها و k تعداد متغیرهای مستقل باشد، میتوان آزمون F را به صورت زیر نوشت. که در آن df1=k و df2=n-k-1 است. دانشگاه صنعت آب و برق
دنباله دو آزمون معنیدار بودن اکنون اگر مقدار F را محاسبه کنید، نتیجه میشود که: اکنون F(0.95,1,6)=5.987 با استفاده از جدول در سطح معنیدار 5% است. ملاحظه میشود که 14.659>5.987 است و مدل مذکور رد نمیشود. دانشگاه صنعت آب و برق
خطای استاندارد برآورد خطای استاندارد برآورد به صورت ریاضی برابر است: که درجه آزادی است و برابر با تعداد نمونهها منهای تعداد پارامترهای برآورد شده است. اگر معادله خط را در نظر بگیرید =n-2 است. اگر Se نزدیک Sy باشد، رگرسیون موفق نیست. اگر Se به اندازه کافی از Sy کوچکتر باشد و نزدیک به صفر باشد، آنگاه رگرسیون مناسب بهنظر میرسد. دانشگاه صنعت آب و برق
فاصله اطمینان برآورد در مورد خط • خطای استاندارد برآورد • اختلافات بین مقدار y مشاهده شده و ŷ برآورد شده، یک خطای استاندارد را موجب میشود. • فاصلهای که میتوان برای y در نظر گرفت به صورت زیر است: دانشگاه صنعت آب و برق
میزان E مقدار E به صورت زیر است: که در آن x0 مقداری است که به جای x در معادله رگرسیون قرار میدهیم تا ŷ حاصل گردد. دانشگاه صنعت آب و برق
میانگین به عنوان داده دانشگاه صنعت آب و برق
دادههای نزدیک به میانگین 36 دانشگاه صنعت آب و برق
دادههای دورترنسبت به میانگین 37 دانشگاه صنعت آب و برق
فاصله اطمینان با استفاده از E با استفاده از مقدار E میتوان یک فاصله اطمینان برای خط رگرسیون ترسیم نمود. دانشگاه صنعت آب و برق
فاصله اطمینان برای شیب خط فاصلهای که میتوان برای 1 در نظر گرفت به صورت زیر است: که مقدار E در آن عبارتست از: دانشگاه صنعت آب و برق
فاصله اطمینان برای عرض از مبدا خط فاصلهای که میتوان برای 0 در نظر گرفت به صورت زیر است: که مقدار E در آن عبارتست از: دانشگاه صنعت آب و برق
شرایط صحت رگرسیون • فرضیاتی که تحت آن مدل رگرسیون صحت دارد. • باقیماندهها از یکدیگر مستقل باشند. • میانگین آنها صفر باشد. • واریانس آنها مقداری ثابت است. • باقیماندهها بهطور نرمال توزیع شدهاند. • اگر یکی از مفروضات فوق برقرار نباشد، میتوان مدعی شد که ساختار مدل مناسب نیست. • اگر مدل را به صورت زیر در نظر گیرید. نتیجه میشود. دانشگاه صنعت آب و برق