1 / 30

רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ. תזכורת: מתאם פירסון מתאם פירסון: מתאם משמעותו שונות משותפת בין שני משתנים. שונות כללית של y = שונות מוסברת + שונות בלתי מוסברת. גורמים אחרים לא ידועים, טעות. r 2 - השונות המוסברת ע"י x. 1. השונות המוסברת:

leanna
Download Presentation

רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

  2. תזכורת: מתאם פירסון מתאם פירסון: מתאם משמעותו שונות משותפת בין שני משתנים.

  3. שונות כללית של y = שונות מוסברת + שונות בלתי מוסברת גורמים אחרים לא ידועים, טעות r2- השונות המוסברת ע"י x 1 השונות המוסברת: ממה מורכבת השונות של משתנה מסוים? השונות המוסברת = פרופורציית השונות של y מנובא, מתוך השונות האמיתית של y.

  4. למשל, ישנו מתאם חיובי גבוה בין שעות הלימוד (x) לציון במבחן (y).

  5. אם כך ניתן להגיד כי: למשתנה "שעות לימוד", ולמשתנה "ציון" ישנה שונות משותפת. ניתן להסביר 79% מהשונות במשתנה "ציון" באמצעות משתנה "שעות לימוד". השונות המוסברת במשתנה "ציון" ע"י המשתנה "שעות לימוד" היא 79%. 21% מהשונות במשתנה "ציון" אינה מוסברת ע"י המשתנה "שעות לימוד". השונות הזו יכולה להיות מושפעת מגורמים רבים אחרים.

  6. ניבוי: כאשר יש קשר ליניארי בין שני משתנים, ניתן למצוא קו ישר בעזרתו נוכל לנבא ערך של משתנה אחד (המשתנה המנובא) מהמשתנה השני. קו זה נקרא קו הרגרסיה. במצב של אי וודאות ננבא לכל ערך של המשתנה המנבא (x), את ערך הממוצע של המשתנה המנובא (y). שימו לב, שאנו מדברים על ניבוי y מתוך x , אך הניבוי הוא דו-כיווני. כלומר, ניתן לנבא גם את x מתוך y.

  7. ניבוי- תיאור גרפי : • נמצא כי יש קשר בין מס' שעות השיחה בטלפון לבין מס' החברים. • נשים לב ל-3 ערכים: • ציון Xi של הנבדק. • ציון Yi של הנבדק. • ציון Ý כלומר, הציון שננבא לנבדק אם אין לנו את הנתון לגביו. יתכן שימצא הבדל בין Yi לבין Ý. למשל- עבור נבדק ש- Xi= 20, ננבא לפי קו הרגרסיה Ý=11. אך בפועל Yi= 12.

  8. ניבוי: קו רגרסיה הנו הקו ה"טוב ביותר" לניבוי, ומקיים את שתי התכונות הבאות: סך הסטיות מהקו הוא 0. כלומר, ∑(Yi – Ŷ)=0 2. סך "המרחקים" ממנו הוא המינימלי. מרחק- ריבוע הסטייה של התצפית מהקו. כלומר ,∑(Yi – Ŷ)2 = min

  9. ניבוי: קו רגרסיה המקיים את שתי התכונות הללו, ולכן הכי טוב לניבוי הוא: y`= bxi + a

  10. חישוב קו הרגרסיה y`= bxi + a נוסחה כללית של משוואת הרגרסיה b= rxy * SDY SDx איך מחשבים את b (השיפוע)? מתאם איך מחשבים את a (חיתוך עם ציר Y)? a= y - bx xממוצע משתנה Y ממוצע משתנה

  11. ניבוי: הנקודה (x ,y) נמצאת תמיד על קו הרגרסיה. המקדם b נקרא מקדם הרגרסיה. b מייצג את מידת ההשפעה שיש למשתנה x על משתנה y. כלומר, כל שינוי של x ביחידה אחת, גורר שינוי של y ב- b.

  12. ניבוי: הצגה גראפית של השונות המוסברת : כאמור, השונות המוסברת היא השונות במשתנה המנובא (y), שמוסברת ע"י השונות במשתנה המנבא (x). Y ציון במבחן שעות לימודx Ý שונות לא מוסברת Yi (x ,y) שונות מוסברת Xi

  13. דוגמא: נבחן הקשר בין מס' שעות הלימוד שמשקיע הסטודנט לבין הציון הסופי במבחן. שלב 1: איסוף נתונים על הפיזור של שני המשתנים. הצגת הנתונים בתרשים פיזור. נאספו נתונים של 25 תלמידים.

  14. הצגה בתרשים פיזור:

  15. שלב 2: חישוב קו הרגרסיה נתונים: ממוצע שעות הלימוד: 6.82 ממוצע ציונים: 82.68 SDy =11.12 SDx =3.75 חושב המתאם : rxy= 0.91 נחשב את b: b= 0.91*(11.12 / 3.75) = 2.72 נחשב את a: a= 82.68 – 2.72 * 6.82 = 64.11 קו הרגרסיה לניבוי y מ-x: Y’ = 2.72*Xi+ 64.11

  16. שלב 2: חישוב קו הרגרסיה: במקרה זה קו הרגרסיה לניבוי y מ-x: Y’ = 2.72*Xi+ 64.11

  17. מקדם המתאם- מוסר מידע כללי על הקשר בין משתנה x למשתנה y. משוואת הרגרסיה - מתארת קשר ליניארי בין משתנים, ומאפשרת לנו לנבא את ערכו של משתנה אחד מתוך מידע על המשתנה השני. מאפשרת לנו לנבא ציון של פרט מסוים.

  18. Y ציון במבחן שלב 3: ניבוי באמצעות קו הרגרסיה. דוג': נתון שדני התכונן למבחן במשך 5 שעות. מה הציון שננבא לו? Y’ = 2.72*(5) + 64.11 = 77.71 הציון המנובא של דני במבחן הוא 77.71 ? שעות לימודx 5

  19. תרגיל 1

  20. Y’= bxi + a ניבוי באמצעות ציוני תקן: נוסחת הרגרסיה המקורית: נוסחת הרגרסיה עבור ציוני תקן: הסבר: ממוצעי ציוני התקן = 0 כלומר, מפגש קו הרגרסיה עם (X ,Y) הוא בראשית הצירים. כלומר, a=0 סטיות תקן ציוני התקן = 1 ולכן, ZY’= r * Zxi = rxy b= rxy * SDYSDx

  21. משמעות הקשר המתאמי - כפי שניתן לנבא את Y מתוך X, כך ניתן לנבא את X מתוך Y ZY’= r * Zxi ZX’= r * ZYi מדובר בשני קווי רגרסיה שונים (סכום מינימלי של ריבועי סטיות Yi מ- Y’ לעומת סכום מינימלי של ריבועי סטיות Xi מ- X’)

  22. הנחות מוקדמות לשימוש במודל הרגרסיה: # קשר ליניארי בין המשתנים # התפלגות נורמלית של המשתנים # התפלגות נורמלית דו-משתנית פיזור טעויות הניבוי (סטיות ערכי ה- Y האמיתיים מה- Y המנובא) עבור כל ערך של X הינו נורמלי # הומוסקדסטיות- פיזור טעויות הניבוי עבור כל ערך של X הינו הומוגני (אחיד), כך שאין קשר בין ערך ה- X למידת פיזור טעויות הניבוי.

  23. לסיכום: • התכונה המרכזית של קו הרגרסיה : מאפשר מינימום של טעות בניבוי משתנה Y מתוך משתנה X. • המטרה למצוא על סמך נתוני המדגם, את הקו הישר שניתן יהיה לנבא בעזרתו את המשתנה השני, ולהקטין את טעויות הניבוי למינימום. נוסחת עבודה נוחה לשימוש: מה יקרה במצב בו rxy=0 ?

  24. טעות התקן של הניבוי (SEest) המתאם אינו מושלם, ולכן : כלומר, ציונו המנובא של הנבדק אינו שווהלציון שהיה מתקבל אם היו לנו את נתוני המשתנה השני. האומדן y’ הינו נקודתי ולא מדויק. כדי להיות בטוחים יותר בניבוי, נחשב את מרווח הטעות הצפויה בניבוי ערך ה-y (כלומר, אומדן שהוא טווח ולא ערך נקודתי)בעזרת טעות התקן של הניבוי. נוסחה:

  25. השימוש ב- SEest: נשתמש בטעות התקן על-מנת לשפר את הניבוי: במקום לנבא עבור ערך X ספציפי ערך Y ספציפי, ננבא עבור ערך X ספציפי טווח ערכי Y מסוים (אינטרוול), ברמת ביטחון מסוימת. (כלומר, זהו ניבוי הסתברותי ולא ניבוי אבסולוטי). *עלינו להשתמש בעקרונות ההתפלגות הנורמלית, ולכן הנחנו את קיומה של התפלגות נורמלית דו-משתנית.

  26. השימוש ב- SEest: טעות התקן של הניבוי: מבטאת את גודלו של המרווח הנבנה סביב הציון המנובא של הנבדק. כך שנוכל לטעון שציונו "האמיתי" של הנבדק במשתנה המנובא מצוי בתחומי הטווח הנ"ל ברמת ביטחון מסוימת (+/-טעות תקן אחת = ביטחון של 68%). בהתאם לרמת הביטחון המבוקשת – יש להכפיל ב-z המתאים לרמת הביטחון. SEest מבוטא במונחים של ציוני גלם (ולא- ציון יחסי).

  27. נטען שברמת ביטחון של ~ 68% Yi נמצא במרחק של ±1 טעויות תקן מ- Y’ נטען שברמת ביטחון של ~ 95% Yi נמצא במרחק של ±2 טעויות תקן מ- Y’ וכן הלאה .... (יש להשתמש ב- Z המתאים לרמת הביטחון המבוקשת)

  28. למה נצפה כאשר rxy = 1 ? • ניבוי מושלם- טעות התקן שווה ל-0. • למה נצפה כאשר rxy = 0 ? • מצב של אי ודאות- ננבא לכל ציון , את הממוצע של משתנה y. • טעות התקן של המדידה – שווה לסטיית התקן של y.

  29. תרגילים 2-5

  30. נקודות נוספות: • ככל שהמתאם rxy גבוה יותר- קטנה טעות התקן של הניבוי. • גם כאשר המתאם גבוה מאוד, עדיין ישנה טעות. אך – מאחר ובדרך-כלל יש צורך רק בחלוקה לטווח ולא בניבוי נקודתי, הניבוי עדיין טוב יותר ממצב של אי וודאות.

More Related