260 likes | 615 Views
המחלקה לניהול תעשייתי סמסטר א', תשע"ב. רגרסיה לינארית, ניתוח שונות ותכנון ניסויים סטטיסטיים הרצאה 4 רגרסיה פשוטה: בדיקת השערות על מקדם המתאם, בדיקת הנחות המודל רווח סמך לתחזית. מקדם המתאם מדגמי R – נוסחא חלופית.
E N D
המחלקה לניהול תעשייתי סמסטר א', תשע"ב רגרסיה לינארית, ניתוח שונות ותכנון ניסויים סטטיסטייםהרצאה 4רגרסיה פשוטה: בדיקת השערות על מקדם המתאם, בדיקת הנחות המודל רווח סמך לתחזית
מקדם המתאם מדגמי R – נוסחא חלופית R2 כפי למדנו בהרצאה קודמת, הינו מדד סטטיסטי מבוסס על נתוני המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס לסטייה הכוללת. לכן ניתן לחשב מקדם המתאם גם בצורה הבאה: ככל ש- R2גבוה יותר, כך מודל הרגרסיה הנבנה יותר טוב וקשר בין משתנה הב"ת למשתנה התלוי חזק יותר.
תזכורת: הגדרות סכום ריבועי הסטיות הכולל: Sum of Squares Total סכום ריבועי הסטיות המדגמיות: Sum of Squares of Errors סכום ריבועי הסטיות הנובעות מקו הרגרסיה: Sum of Squares of Regression
בדיקת השערות לגבי מקדם המתאם כאשר מקדם המתאם שווה ל-0, אזי גם שיפוע שווה ל-0. לכן במקום לבדוק השערות לגבי שיפוע: ניתן לבצע בדיקת השערות לגבי מקדם המתאם של אוכלוסיה: משמעות של השערת האפס: לא קיים קשר ליניארי בין משתנה הב"ת למשתנה התלוי. ניתן לבדוק את ההשערות הנ"ל או באמצעות מבחן T או באמצעות ניתוח שונות ומבחן F. מבחן T ססטיסטי המבחן: איזור דחייה (דו-זנבי):
תזכורת: דוגמה בוחנים את הקשר בין גודל מנת הייצור לשעות העבודה שיש להשקיע כדי לייצר מנה זו. נתונים נתוני המדגם (10 תצפיות):
נחזור לדוגמה ונבדוק השערות למקדם המתאם נבדוק השערות הבאות: מקדם מתאם מדגמי: נבצע בדיקת השערות במבחן T: מסקנה: נדחה את השערת האפס ברמת מובהקות 5% ונאמר שיש קשר ליניארי בין משתנה הב"ת למשתנה התלוי ושיפוע שונה מ-0.
מקדם המתאם מדגמי R – נוסחא חלופית R2 כפי למדנו בהרצאה קודמת, הינו מדד סטטיסטי מבוסס על נתוני המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס לסטייה הכוללת. לכן ניתן לחשב מקדם המתאם גם בצורה הבאה: ככל ש- R2גבוה יותר, כך מודל הרגרסיה הנבנה יותר טוב וקשר בין משתנה הב"ת למשתנה התלוי חזק יותר.
תזכורת: הנחות המודל ,כלומר xi הינו קבוע או משתנה מקרי מנוון, εi סופג את כל הרעש. εiהינו משתנה מקרי מפולג נורמלית בלתי מתואמים (cov=0).
בדיקת הנחות המודל ברגרסיה פשוטה בהינתן משתנה תלוי ומשתנה בלתי תלוי, נבחר מכל אחד מהם מדגם מקרי בגודל n. על מנת שנוכל לבחון באופן מדויק ונכון האם קיים קשר ליניארי בין שני משתנים אלו באמצאות מודל רגרסיה, צריכות להתקיים ההנחות כי n תצפיות הן בלתי מתואמות (הנחה 3) ומפולגות בהתפלגות נורמלית (הנחה 2).
בדיקת הנחות המודל: בדיקת נורמליות על מנת לבדוק הנחה 2נצטרך לבנות גראף הנקרא Normal Probability-Probability (P-P) Plot. לשם כך נבצע צעדים הבאים: • נחשב שאריות (שגיאות) • נסדר שאריות בסדר עולה (נסמן שאריות מסודרת ב- ) • ננרמל את השגיאות המסודרות בסדר עולה ע"י חישוב: • נמצא בטבלת Zהסתברות נורמלית המצטברת התיאורטית: • נחשב הסתברות נורמלית מצטברת האמפירית המתקבלת מהנתונים: • נשרטט גרף של הסתברות מצטברת אמפירית בציר Xוהסתברות מצטברת תיאורטית בציר Y. • קו ישר של 45 מעלות (בקירוב) יעיד כי הנתונים באים מהתפלגות נורמלית.
נחזור לדוגמה ונבדוק האם הנחת נורמליות מתקיימת נחשב מצטברת אמפירית ומצטברת תיאורטית עבור גראף Normal P-P:
נחזור לדוגמה ונבדוק האם הנחת נורמליות מתקיימת נשרטט גראף Normal P-P: מסקנה: ניתן לראות שערכים מסתדרים בקירוב על קו של 45 מעלות, לכן נאמר שהנחת נורמליות מתקיימת בדוגמה שלנו.
בדיקת הנחות המודל: בדיקת אי-תלות גם בדיקה של הנחה 3 נעשית באופן גראפי. לשם בניית גראף זה נבצע צעדים הבאים: • נחשב שאריות (שגיאות) • נשרטט גרף של שגיאות בציר Xוערך החזוי ע"י מודל מרגרסיה (ישר המותאם) בציר Y. • במידה ונראה כי שגיאות מסודרות באופן מקרי ולא על פי תבנית מסודרת, ניתן לומר כי מתקיימת הנחת אי-תלות. מגראף זה נוכל להסיק גם על אחידות שונות השגיאות.
נחזור לדוגמה ונבדוק האם הנחת אי-תלות מתקיימת נחשב שגיאות ונבנה גראף: מסקנה מגראף: אין תבניות בסידור השגיאות, לכן ניתן לומר כי הנחת אי-תלות מתקיימת בניסוי זה.
חיזוי בעזרת משוואת רגרסיה ורווח סמך לתחזית מטרותינו: לחשב רווח בר סמך ברמת הביטחון 1-α למספר אינסופי של תצפיות עבור ערך xh נתון, כלומר עבור תוחלת E(yh). (בדוגמה שלנו, תוחלת שעות עבודה המושקעות בייצור מנה בגודל xh). לחשב רווח בר סמך לתצפית בודדת ברמת הביטחון 1-αעבור ערך xh נתון, כלומר רווח סמך עבור yh. (בדוגמה שלנו, עבור שעות עבודה המושקעות בייצור מנה בגודל מסויים אשר יכול להשתנות כל יום). הערה: לאינסוף תצפיות מחפשים רווח בר סמך לקו רגרסיה של אוכלוסיה:
רווח בר סמך עבור תוחלת התחזית - סטטיסטי שבעזרתו נאמוד רווח בר סמך ברמת הביטחון 1-α לתוחלת E(yh). - שונות מדגמית (אמד חסר הטיה לשונות): רווח סמך לתוחלת התחזית:
נחזור לדוגמה שאלה: בנה רווח סמך ברמת ביטחון של 90% עבור תוחלת שעות העבודה שידרשו לייצור מנה בגודל 55יחידות. נחשב : נחשב : נחשב אומד לסטיית תקן של תחזית : נמצא בטבלת T ערך :
נחזור לדוגמה נבנה רווח סמך ברמת ביטחון של 90% עבור תוחלת שעות העבודה שידרשו לייצור מנה בגודל 55יחידות: אורך רווח סמך:121.27-118.3=3.4
נחזור לדוגמה שאלה נוספת: כעת בנה רווח סמך ברמת ביטחון של 90% עבור תוחלת שעות העבודה שידרשו לייצור מנה בגודל 80יחידות. נחשב : נחשב : נחשב אומד לסטיית תקן של תחזית : נמצא בטבלת T ערך :
נחזור לדוגמה נבנה רווח סמך ברמת ביטחון של 90% עבור תוחלת שעות העבודה שידרשו לייצור מנה בגודל 80 יחידות: אורך רווח סמך:173.1-166.9=6.2
רווח בר סמך עבור התחזית (תצפית בודדת ) - סטטיסטי שבעזרתו נאמוד רווח בר סמך ברמת הביטחון 1-α לתחזית של תצפית בודדת שונות מדגמית (אמד חסר הטיה לשונות): רווח סמך לתחזית (תצפית בודדת):
נחזור לדוגמה שאלה: בנה רווח סמך ברמת ביטחון של 90% עבור שעות העבודה שידרשו לייצור מנה בגודל 55 יחידות. נחשב : נחשב : נחשב אומד לסטיית תקן לתחזית של תצפית בודדת: נמצא בטבלת T ערך :
נחזור לדוגמה נבנה רווח סמך ברמת ביטחון של 90% עבור שעות העבודה שידרשו לייצור מנה בגודל 55 יחידות: אורך רווח סמך:125.4-114.6=10.8 ניתן לראות שעבור תחזית בודדת מתקבל רווח סמך הרבה יותר רחב לעומת אורך רווח סמך לתוחלת התחזית לאותו מקרה xh=55. הערה: באופן כללי, סביר להניח שאורך רווח סמך לתחזית של תצפית בודדת יגדל בהשוואה לתחזית של אינסוף תצפיות (תוחלת התחזית).