140 likes | 484 Views
מודל הרגרסיה המרובה. y = b 0 + b 1 x 1 + b 2 x 2 + . . . b k x k + u משתני דמי. משתני דמי. משתנה דמי הנו משתנה שמקבל ערך 1 או 0 לדוגמא: גבר (= 1 אם גבר ו- 0 אחרת) דרום (= 1 אם נמצא בדרום ו- 0 אחרת) וכד'. משתני דמי מכונים גם משתנים בינאריים. משתנה מסביר כמשתנה דמי.
E N D
מודל הרגרסיה המרובה y = b0 + b1x1 + b2x2 + . . . bkxk + u משתני דמי
משתני דמי • משתנה דמי הנו משתנה שמקבל ערך 1 או 0 • לדוגמא: גבר (=1 אם גבר ו-0 אחרת) דרום (=1 אם נמצא בדרום ו-0 אחרת) וכד'. • משתני דמי מכונים גם משתנים בינאריים
משתנה מסביר כמשתנה דמי • תחשבו על מודל פשוט עם משתנה מסביר אחד מספרי(x) ומשתנה דמי אחד(d) • y = b0 + δ0d + b1x + u • ניתן לפרש את המודל כשינוי בחותך • אםd = 0נקבל y = b0 + b1x + u • אםd = 1נקבל y = (b0 + δ0) + b1x + u • מקרה שלd = 0 מהווה קבוצת בסיס • דוגמא: נניח ששני גורמים בלבד משפיעים על גובה השכר • wage = b0 + δ0 female+ b1educ + u • δ0מבטא הפרש בשכר לשעה בין גברים ונשים, בהינתן רמת השכלה זהה. מקדםδ0 מראה אם ישנה אפליה נגד נשים (או שאר הגורמים שקשורים למין שלא נכללו במודל שלנו) • δ0 =E(wage|female=1, educ) – E(wage|female=0, educ)
דוגמא עםd0 > 0 y = (b0 + d0) + b1x y d = 1 slope = b1 { d0 d = 0 } y = b0 + b1x b0 x
משתני דמי לקטגוריות מרובות • ניתן להשתמש במשתני דמי גם כשמדובר על משהו עם קטגוריות מרובות • נניח שבנתונים שלנו כל הפרטים מחולקים לשלוש קבוצות: נושרים מבית ספר תיכון, מסיימי תיכון ובעלי תואר אוניברסיטאי • כדי להשוות בין מסיימי תיכון לבין בעלי תואר אוניברסיטאי, נכלול 2 משתני דמי • hs_grad = 1 אם סיים תיכון, 0 אחרת univ_grad = 1 אם סיים אוניברסיטה, 0 אחרת
קטגוריות מרובות (המשך) • כל משתנה קטגורי ניתן להפוך למערכת משתני דמי • ב-Stataהפקודה היא • tab var_name, gen(var_dum) כאשרvar_name הוא שם המשתנה הקטגורי ו-var_dumהוא שם משתנה חדש שאתם יוצרים --tab x, gen(x_dum) | x x_dum1 x_dum2 x_dum3 | |------------------------------| 1. | 1 1 0 0 | 2. | 1 1 0 0 | 3. | 1 1 0 0 | 4. | 2 0 1 0 | 5. | 2 0 1 0 | |------------------------------| 6. | 2 0 1 0 | 7. | 3 0 0 1 | 8. | 3 0 0 1 | 9. | 3 0 0 1 | 10. | 3 0 0 1 | |------------------------------|
קטגוריות מרובות (המשך) • שאלה: מתי צריך להשתמש במשתנה קטגורי ומתי צריך להשתמש במשתני דמי? • y = b0 + b1x + u ? • y = b0 + b2x2 + b3x3 +u ? • כשאינפורמציה הנה אורדינלית (ordinal), כלומר כשאנו יודעים שמספרים גדולים טובים יותר אולם לא בהכרח מעבר מ-1 ל-2 זהה למעבר מ-2 ל-3, שימוש במשתנה יחיד קטגורי אינו הגיוני • תחשבו על דירוג האשראי. מדדStandard and Poor’s מדרג איכות החוב עבור רשויות מקומיות לפי סקלה מ-0 עד 4, כאשר 0 הנו דירוג גרוע ביותר. שימוש במשוואה שנייה נותן יותר גמישות. איך נוכל לפרש את המקדמים? • מכיוון שקבוצת הבסיס מיוצגת על ידי החותך, כשיש לנו n קטגוריות נצטרך להגדירn – 1 משתני דמי • כשיש מספר רב של קטגוריות, נוח יותר לקבץ אותם • דוגמא: דירוג 10-1, 25-11 וכו'
אינטראקציות עם משתני דמי • הוספת אינטראקציות בין משתני דמי דומה לחלוקה לתת קבוצות • דוגמא: יש לנו משתני דמי ל-maleוגם ל-hs_gradו-univ_grad • תוסיפו אינטראקציותmale*hs_gradו-male*univ_gradותקבלו 5 משתני דמי 6 קטגוריות • קבוצת בסיס היא נשים שנשרו מתיכון • hs_gradהואלאישה שסיימה תיכון,univ_gradהואלאישה שסיימה אוניברסיטה • האינטראקציות מתאימות לגברים מסיימי תיכון וגברים מסיימי אוניברסיטה
יותר על אינטראקציות עם משתני דמי • בצורה פורמלית, המודל הוא • y= b0 + d1male + d2hs_grad + d3univ_grad + d4male*hs_grad + d5male*univ_grad + b1x + u, • אז לדוגמא: • אםmale = 0 ו- hs_grad = 0 ו-univ_grad = 0 • y= b0 + b1x + u • אםmale = 0 ו- hs_grad = 1 ו-univ_grad = 0 • y= b0 + d2hs_grad + b1x + u • אםmale = 1 ו- hs_grad = 0 ו-univ_grad = 1 • y= b0 + d1male + d3univ_grad + d5male*univ_grad + b1x + u • דוגמא מס' 6-1,Stata
אינטראקציות אחרות עם משתני דמי • ניתן לחשוב גם על אינטראקציה של משתנה דמי,d, עם משתנה מספרי,x • y= b0 + δ1d + b1x + δ2d*x + u • אם d = 0אזי y= b0 + b1x + u • אם d = 1אזי y= (b0 + δ1) + (b1+ δ2) x + u • פירוש התוצאה הוא שינוי בשיפוע • דוגמא מס' 6-2,Stata
דוגמא עםd0 > 0ו-d1 < 0 y y = b0 + b1x d = 0 d = 1 y = (b0 + d0) + (b1 + d1) x x
מודלLPM(Linear Probability Model) • עד כה דיברנו על משתנים בינאריים בלתי תלויים. מה קורה כאשר המשתנה התלוי הנו בינארי[0,1]? • P(y = 1|x) = E(y|x)כאשרyמשתנה בינארי, לכן נוכל לרשום את המודל בצורה • P(y = 1|x) = b0 + b1x1 + … + bkxk • לכן המשמעות שלbjהוא שינוי בהסתברות להצלחה כתוצאה משינוי ב-xj • ה-yהחזוי מהווה למעשה הסתברות צפויה להצלחה • הבעיה האפשרית היא שהתחזיות יכולות להתקבל מחוץ לתחום[0,1]
מודלLPM(המשך) • אפילו ללא תחזיות מחוץ לתחום[0,1],אנו עשויים לקבל אומדנים, לפיהם שינוי ב-xגורם לשינויבהסתברות ביותר מ-+1 או–1, לכן כדאי להעריך שינויים קרוב לערך הממוצע • מודלLPM מפר הנחת הומוסקדסטיות, לכן ישפיע גם על ביצוע מבחנים והסקת מסקנות • למרות החסרונות, במידה והמשתנה התלויyהנו בינארי בדרך כלל כדאי להתחיל ממודלLPMדוגמא מס' 6-3,Stata