1 / 41

همبستگی و رگرسیون Correlation and Regression

همبستگی و رگرسیون Correlation and Regression. موسوی ندوشنی پاییز 1386. مقدمه (زوج داده‌ها). آیا این زوج‌ها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا می‌توان معادله‌ای برای آنها منظور نمود؟ آیا با استفاده از این معادله می‌توان درون‌یابی و یا برون‌یابی نمود؟. نمودار پراکنش.

Download Presentation

همبستگی و رگرسیون Correlation and Regression

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. همبستگی و رگرسیونCorrelation and Regression موسوی ندوشنی پاییز 1386 دانشگاه صنعت آب و برق

  2. مقدمه (زوج داده‌ها) آیا این زوج‌ها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا می‌توان معادله‌ای برای آنها منظور نمود؟ آیا با استفاده از این معادله می‌توان درون‌یابی و یا برون‌یابی نمود؟ دانشگاه صنعت آب و برق

  3. نمودار پراکنش در این نمودار زوج‌های (x,y) به صورت نقاط مجزا از هم در صفحه مختصات ظاهر می‌شوند. دانشگاه صنعت آب و برق

  4. همبستگی خطی مثبت y y y x x x (a)Positive (b) Strong positive (c) Perfect positive دانشگاه صنعت آب و برق

  5. همبستگی خطی منفی y y y x x x (d) Negative (e) Strong negative (f) Perfect negative دانشگاه صنعت آب و برق

  6. همبستگی غیر خطی y y x x (h) Nonlinear Correlation (g) No Correlation دانشگاه صنعت آب و برق

  7. ضریب همبستگی خطی این ضریب میزان همبستگی خطی بین زوج‌های x, y را در نمونه، اندازه می‌گیرد. ضریب همبستگی خطی جامعه را با علامت  نشان می‌دهند. دانشگاه صنعت آب و برق

  8. تفسیر ضریب همبستگی n • اگر قدر مطلق r بزرگتر از مقادیر جدول مربوط به این ضریب باشد. نتیجه می‌گیریم که همبستگی خطی معنی‌دار است. • در غیر اینصورت به اندازه کافی معنی‌دار نیست. دانشگاه صنعت آب و برق

  9. آزمون فرض راجع به r • آیا همبستگی خطی معنی‌داری بین دو متغیر وجود دارد. H0: = (no significant linear correlation) H1:  (significant linear correlation) • Test statistic: دانشگاه صنعت آب و برق

  10. آماره آزمون t (روش اول) دانشگاه صنعت آب و برق

  11. آماره آزمون r (روش دوم) Reject = 0 Fail to reject  = 0 Reject = 0 r = 0.811 1 r = - 0.811 0 -1 Sample data: r = 0.828 آماره آزمون r استفاده از جدول معنی‌دار بودن r دانشگاه صنعت آب و برق

  12. Is there a significant linear correlation? x Plastic (lb) 0.27 2 1.41 3 2.19 3 2.83 6 2.19 4 1.81 2 0.85 1 3.05 5 y Household n = 8  = 0.05 H0:  = 0 H1: 0 Test statistic is r = 0.842 دانشگاه صنعت آب و برق

  13. n = 8  = 0.05 H0:  = 0 H1 : 0 Test statistic is r = 0.842 Reject = 0 Fail to reject  = 0 Reject = 0 1 - 1 r = - 0.707 0 r = 0.707 Sample data: r = 0.842

  14. رگرسیون • معادله رگرسیون • در حالت کلی (جامعه) معادله خط به صورت زیر است: • با توجه به زوج داده‌های اندازه‌گیری شده معادله رگرسیون عبارتست از: • خط رگرسیون • بهترین خط برازش یافته • خط حاصل از روش حداقل مربعات (least squares) دانشگاه صنعت آب و برق

  15. دانشگاه صنعت آب و برق

  16. روش حداقل مربعات برای بیان روش حداقل مربعات، باقی‌مانده‌ را در نظر بگیرید که به صورت زیر است: واضح است که باید مجموع مربع خطا حداقل شود. یعنی اگر معادله خط را در رابطه بالا جایگذاری کنید، نتیجه می‌شود که: دانشگاه صنعت آب و برق

  17. دنباله روش حداقل مربعات برای حداقل نمودن عبارت F باید از آن مشتق گرفت و مساوی صفر قرار داد. اگر طرفین معادلات را بر 2 تقسیم کنید و جابجایی‌های لازم صورت گیرد، آنگاه به معادلات زیر می‌رسید که به معادلات نرمال شهرت دارند. دانشگاه صنعت آب و برق

  18. روابط برای محاسبه ضرایب معادله محاسبه شیب خط: محاسبه عرض از مبداء: دانشگاه صنعت آب و برق

  19. نشان‌گذاری‌های مهم در رگرسیون دانشگاه صنعت آب و برق

  20. دنباله نشان‌گذاری‌های مهم در رگرسیون دانشگاه صنعت آب و برق

  21. دنباله نشان‌گذاری‌های مهم در رگرسیون دانشگاه صنعت آب و برق

  22. نمودار معادله رگرسیون دانشگاه صنعت آب و برق

  23. برآوردها • در برآورد مقدار y بر اساس x داده شده، به موارد زیر توجه کنید. • همبستگی خطی معنی‌داری وجود ندارد. بنابراین بهترین برآورد y برابر با میانگین y است. • اگر همبستگی خطی معنی‌داری وجود داشت، آنگاه بهترین برآورد مقدار y با جایگزین نمودن مقدار x در داخل معادله رگرسیون بدست می‌آید. دانشگاه صنعت آب و برق

  24. مثال x Plastic (lb) 0.27 2 1.41 3 2.19 3 2.83 6 2.19 4 1.81 2 0.85 1 3.05 5 y Household b0 = 0.549 b1= 1.48 ŷ= 0.549 + 1.48 (0.50) ŷ= 1.3 مقدار y به ازای x=0.5 را در مثال زیر بدست آورید. دانشگاه صنعت آب و برق

  25. خاصیت باقیمانده‌ها و حداقل مربعات • باقیمانده • برای زوج (x,y) اختلاف y-ŷ را گویند، که y مقدار مشاهده شده و ŷ مقدار برآورد شده می‌باشند. • حداقل مربعات • خط راست رگرسیون بر اساس حداقل مربع باقیمانده‌ها ترسیم می‌شود. دانشگاه صنعت آب و برق

  26. تعاریف • انحراف کل • فاصله عمودی y-y یعنی فاصله بین نقطه (x,y) و خط افقی که از میانگین نمونه می‌گذرد. • انحراف تبیین شده • فاصله عمودی ŷ-y یعنی فاصله بین ŷ و خطی که از میانگین نمونه y می‌گذرد. • انحراف تبیین نشده • فاصله عمودی y-ŷ یعنی فاصله بین نقطه (x,y) و خط رگرسیون دانشگاه صنعت آب و برق

  27. 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 شکل مربوط به تعاریف y (5, 19) Unexplained deviation (y - ŷ) (5, 13) Total deviation (y - y) Explained deviation (ŷ - y) y = 9 (5, 9) ŷ= 3 + 2x x 0 1 2 3 4 5 6 7 8 9 دانشگاه صنعت آب و برق

  28. روابط بین y، میانگین y و ŷ انحراف تبیین نشده انحراف تبیین شده انحراف کل تغییرات کل تغییرات تبیین شده تغییرات تبیین نشده دانشگاه صنعت آب و برق

  29. تعریف ضریب تعیین دانشگاه صنعت آب و برق

  30. دو آزمون معنی‌دار بودن مقدار r=0.8423 محاسبه شده است. مقدار r با سطح معنی‌دار بودن 5% با استفاده از جدول مربوطه برابر با 0.707 می‌باشد، که 0.8423>0.707 است. بنابراین همبستگی معنی‌دار می باشد. اگر n تعداد نمونه‌ها و k تعداد متغیرهای مستقل باشد، می‌توان آزمون F را به صورت زیر نوشت. که در آن df1=k و df2=n-k-1 است. دانشگاه صنعت آب و برق

  31. دنباله دو آزمون معنی‌دار بودن اکنون اگر مقدار F را محاسبه کنید، نتیجه می‌شود که: اکنون F(0.95,1,6)=5.987 با استفاده از جدول در سطح معنی‌دار 5% است. ملاحظه می‌شود که 14.659>5.987 است و مدل مذکور رد نمی‌شود. دانشگاه صنعت آب و برق

  32. خطای استاندارد برآورد خطای استاندارد برآورد به صورت ریاضی برابر است: که  درجه آزادی است و برابر با تعداد نمونه‌ها منهای تعداد پارامترهای برآورد شده است. اگر معادله خط را در نظر بگیرید =n-2 است. اگر Se نزدیک Sy باشد، رگرسیون موفق نیست. اگر Se به اندازه کافی از Sy کوچکتر باشد و نزدیک به صفر باشد، آنگاه رگرسیون مناسب به‌نظر می‌رسد. دانشگاه صنعت آب و برق

  33. فاصله اطمینان برآورد در مورد خط • خطای استاندارد برآورد • اختلافات بین مقدار y مشاهده شده و ŷ برآورد شده، یک خطای استاندارد را موجب می‌شود. • فاصله‌ای که می‌توان برای y در نظر گرفت به صورت زیر است: دانشگاه صنعت آب و برق

  34. میزان E مقدار E به صورت زیر است: که در آن x0 مقداری است که به جای x در معادله رگرسیون قرار می‌دهیم تا ŷ حاصل گردد. دانشگاه صنعت آب و برق

  35. میانگین به عنوان داده دانشگاه صنعت آب و برق

  36. داده‌های نزدیک به میانگین 36 دانشگاه صنعت آب و برق

  37. داده‌های دورترنسبت به میانگین 37 دانشگاه صنعت آب و برق

  38. فاصله اطمینان با استفاده از E با استفاده از مقدار E می‌توان یک فاصله اطمینان برای خط رگرسیون ترسیم نمود. دانشگاه صنعت آب و برق

  39. فاصله اطمینان برای شیب خط فاصله‌ای که می‌توان برای 1 در نظر گرفت به صورت زیر است: که مقدار E در آن عبارتست از: دانشگاه صنعت آب و برق

  40. فاصله اطمینان برای عرض از مبدا خط فاصله‌ای که می‌توان برای 0 در نظر گرفت به صورت زیر است: که مقدار E در آن عبارتست از: دانشگاه صنعت آب و برق

  41. شرایط صحت رگرسیون • فرضیاتی که تحت آن مدل رگرسیون صحت دارد. • باقی‌مانده‌ها از یکدیگر مستقل باشند. • میانگین آن‌ها صفر باشد. • واریانس آن‌ها مقداری ثابت است. • باقی‌مانده‌ها به‌طور نرمال توزیع شده‌اند. • اگر یکی از مفروضات فوق برقرار نباشد، می‌توان مدعی شد که ساختار مدل مناسب نیست. • اگر مدل را به صورت زیر در نظر گیرید. نتیجه می‌شود. دانشگاه صنعت آب و برق

More Related