740 likes | 1.51k Views
רגרסיה ליניארית. מתאם פירסון בודק : האם יש קשר לינארי בין שני משתנים , ואם כן, מה עוצמתו וכוונו אך אם אכן קשר כזה מתקיים, מה נוכל להפיק ממנו?. 2. 3. 3. אופי הקשר בין המשתנים - . 4. 4. חוזק הקשר בין המשתנים - ככל שענן ההתפלגות מרוכז יותר, הקשר חזק יותר. רגרסיה לינארית.
E N D
מתאם פירסון בודק: האם יש קשר לינארי בין שני משתנים , ואם כן, מה עוצמתו וכוונואך אם אכן קשר כזה מתקיים, מה נוכל להפיק ממנו? 2
3 3 אופי הקשר בין המשתנים -
4 4 חוזק הקשר בין המשתנים - ככל שענן ההתפלגות מרוכז יותר, הקשר חזק יותר
רגרסיה לינארית כאשר ידוע לנו שקיים קשר בין שני משתנים והקשר הוא לינארי (קו ישר), אנחנו יכולים לבנות מודל של רגרסיה משוואת הרגרסיה מאפשרת לנו לנבא את הערך של המשתנה התלוי מתוך הערך של המשתנה הבלתי-תלוי. או במילים פשוטות - בכמה יחידות עולה Y כאשר X עולה ביחידה אחת 5
רגרסיה לינארית • רגרסיה: מחפשים מהי הנוסחה המתמטית שמבטאת את דפוס הקשר בין שני המשתנים • כאשר המטרה הראשונה שלנו היא ניבוי • לדוגמא – רוצים לנבא את ציונו הסופי של תלמיד תואר ראשון על סמך ציון הפסיכומטרי שלו איך? בונים קו רגרסיה על סמך הנתונים הידועים עבור מועמד חדש – מציבים ציון פסיכו' וחוזים ערך BA
רגרסיה לינארית ניתן ללמוד מרגרסיה מספר דברים: מידת ההשפעה של X על Y ניבוי Y על פי X (או להפך) אחוז שונות מוסברת – מהי התרומה של המשתנה הבלתי תלוי להסבר השונות בתופעה הנחקרת [המשתנה התלוי]. עד כמה המשתנה המנבא יכול להסביר הבדלים במשתנה המנובא 7
בעולם מושלם.. • כאשר הקשר בין X ל-Y הוא קשר קווי מלא, ניתן לנבא במדויק את Y מתוך X – בעזרת משוואת הרגרסיה הליניארית. נשתמש בנוסחא האהובה
..ובמציאות.. • מה קורה כאשר הקשר הקווי אינו מלא?גם במקרים אלו נשתמש במודל של רגרסיה ליניארית שתתאר, בצורה הטובה ביותר, את הקשר בין X ל-Y
התאמת מודל ליניארי לנתונים 10 שלב ראשון - הצגה גראפית של ההתפלגויות המשותפות של המשתנים כדי לוודא שאנחנו עומדים מול קשר ליניארי. הדרך הטובה ביותר להצגה גראפית של קשר בין משתנים אינטרוווליים ומעלה: scatterplots.
גרף המתאר קשר בין שני המשתנים – מה מראה גרף שכזה? ערכי המשתנה הבלתי תלוי מופיעים על הציר האופקי (X) ערכי המשתנה התלוי מופיעים על הציר האנכי (Y) כל המקרים מוצגים על הגרף כנקודות על פי ערכיהם על שני המשתנים 11
קשר בין X ל-Y סביר להתייחס אל הקשר כאל קשר ליניארי Y X
הקו המבוקש הוא מעין קו "ממוצע". • הוא קו שסך המרחקים ממנו הוא קטן ביותר בהשוואה לכל קו ישר אחר • כאשר המרחק נמדד כריבוע מסטיות הקו
בנית קו רגרסיה אם נעלה בריבוע את כל הסטיות של הנקודות מהקו. ונסכם את כל ריבועי הסטיות (‘Sum of squares’) –- נוכל לקבוע את מידת ההתאמה של הקו לנקודות ככל שהמספר שקיבלנו גדול יותר, כך ההתאמה גרועה יותר. קו הרגרסיה מוגדר כקו הישר הטוב ביותר לפי קריטריון הריבועים הפחותים.
בנית קו רגרסיה ניבוי בעזרת הקו הישר פירושו שלכל X ננבא Y מסוים • לכל תצפית שאיננה על הקו הישר, אנו טועים בניבוי. • יש לנו את ערכי ה-Y הנתונים, הערכים האמיתיים. יש לנו את ערכי ה-Y המנובאים, שהם ערכי Y על הקו הישר • Y = a + bX.ההפרש בין Y האמיתי ל-Y המנובא, היא הסטייה, הטעות.
אנו מחפשים את אותו קו ניבוי שעבורו סך ריבועי הסטיות של הערכים האמיתיים מהניבויים, יהיה מינימאלי. • בעית אופטימיזציה – שכבר פתרו בעבורנו
הקשר בין קו הרגרסיה לבין משוואת הרגרסיה משוואת הרגרסיה: Y = a + bX Dependent variable (Y) שיפוע = b a = נקודת החיתוך על ציר ה Y = Independent variable (X)
קו הניבוי הטוב ביותר הוא כאשר אין הפרשים בין התצפית האמיתית של Y לבין התצפית שניבאנו. • אם נצייר 2 קוים: קו ניבוי וקו של התצפיות, הם יהיו חופפים...אך מאוד לא סביר שבמציאות שאנו חוקרים נגיע לדבר כזה...
רגרסיה ליניארית – כמה נקודות הבנה כלליות.. • מודל הרגרסיה זוהי משוואת הניבוי. אם X נתון אפשר לנבא את Y ואם Y נתון אפשר לנבא את X. • על מנת לחשב את הרגרסיה הליניארית המשתנים צריכים להיות על סולם אינטרוולי ומעלה
רגרסיה לינארית • משוואת קו הרגרסיה ערך מנובא של Y עבור כל X נתון - החותך: המקום בו קו הרגרסיה חותך את ציר Y - a שיפוע קו הרגרסיה - b אופציה נוספת לחישובb : השונות של המשתנה הבלתי תלוי
24 השיפוע יכול להיות חיובי (b>0) או שלילי (b<0).
דוגמא • להלן ציוני 6 תלמידים בלשון(X) ובמתמטיקה (Y):
משוואת הרגרסיה של y על פי x - כעת נציב את ה-a ואת ה-b במשוואת הרגרסיה:
ניבוי (מתמטיקה)Y על ידי X (לשון) • כאשר x = 7 • Y יהיה שווה ל-???? • 1.5 + 0.5 * 7= 5
משוואת הרגרסיה לניבוי X על פי Y – (בדיוק אותו עיקרון!!!) כעת נציב במשוואת הרגרסיה:
ניבוי X (לשון) על ידי (מתמטיקה)Y • כאשר Y = 4 • X יהיה שווה ל-???? • 0.452+ 0.631 * 4= 2.97
ניבוי בעזרת ציוני התקן • בציוני תקן ממוצע שני המשתנים הוא אפס ולכן חיתוך עם ציר X יהיה –
ניבוי בעזרת ציוני התקן • בערכים גולמיים שיפוע הקו הושפע גם ממידת הפיזור – • בציוני תקן שיפוע הקו מושפע אך ורק מעצמת הקשר בין המשתנים • ככל שהקו תלול יותר – הקשר חזק יותר • ב-45 מעלות r=1
מה מסביר את השונות במשתנה המנובא? • לאובייקטים שונים ערכי Y שונים • מה קובע את המרחק שלהם מהממוצע? • אם אין קשר בין X ל –Y – • X לא מסביר את הפיזור של Y • ננבא את הממוצע של Y לכל ערך X
מה מסביר את השונות במשתנה המנובא? • אם יש קשר – אפשר יהיה להסביר באמצעות השונות של X את הפיזור של Y • מטרה שניה של הרגרסיה – הסבר השונות במשתנה המנובא באמצעות המשתנה המנבא
רגרסיה ליניארית – אחוז השונות המוסברת • - אחוז השונות המוסברת מאפשר לנו לדעת כמה מהשונות של המשתנה התלוי מוסברת ע"י המשתנה/ משתנים בלתי תלויים. • ככל שאחוז השונות המוסברת גבוה יותר, פירושו של דבר ש-X עוזר לנו בניבוי Y
אחוז השונות המוסברת • מה זה r2? זהו ריבוע המתאם.השונות המוסברת (explained variance) מתוך השונות הכללית. • טווח הערכים של r2 בין אפס לאחד • אפשר להכפיל פי 100 ולקבל אחוז השונות המוסברת • החלק היחסי של השונות הלא מוסברת - 1 - r2
וכן, יש קשר הדוק ל-r של פירסון • אם נוציא שורש נקבל את מקדם המתאם • r2= 0.3157 • 0.56 r= • לדוגמא: ידוע לנו כי הקשר בין השכלה (בלתי תלוי) לעמדות ליברליות (תלוי) הוא 0.7. אחוז השונות המוסברת הוא 49%. כך שהשכלה מסבירה 49% מהשוני בעמדות הליברליות בין נחקרים.(את יתר 51% מסבירים משתנים אחרים: אולי גיל, אולי מידת מסורתיות וכו').
שאלה לדוגמא • נתון כי ציוני הקורס מתפלגים נורמאלית עם ממוצע 90 וסטיית תקן של 5, ושעות הנוכחות של הסטודנטים בתרגול מתפלגים נורמאלית עם ממוצע 35 וסטיית תקן 5. המתאם בין הציון בקורס לבין שעות הנוכחות בתרגול הינו 0.8 • מה יהיה ציונו המנובא של סטודנט שנכח 40 שעות? • מהם הגבולות בהם צפוי להימצא ציונו האמיתי של הסטודנט הנ"ל, ברמת בטחון של 95% ?