480 likes | 599 Views
Το μοντέλο της απλής παλινδρόμησης. y = b 0 + b 1 x + u Κεφάλαιο 2. Ορολογία. Στο μοντέλο της απλής γραμμικής παλινδρόμησης , όπου y = b 0 + b 1 x + u , αναφερόμαστε τυπικά στο y ως: Εξαρτημένη μεταβλητή , ή Αριστερόπλευρη μεταβλητή, ή Επεξηγημένη μεταβλητή , ή
E N D
Το μοντέλο της απλής παλινδρόμησης y = b0 + b1x + u Κεφάλαιο 2
Ορολογία • Στο μοντέλο της απλής γραμμικής παλινδρόμησης , όπου y = b0 + b1x + u, αναφερόμαστε τυπικά στο y ως: • Εξαρτημένη μεταβλητή, ή • Αριστερόπλευρη μεταβλητή,ή • Επεξηγημένημεταβλητή, ή • Παλινδρομούμενη Μεταβλητή
Ορολογία (συνέχεια) • Στην απλή γραμμική παλινδρόμηση του y ως προς το x, αναφερόμαστε, τυπικά, στο x ως: • Ανεξάρτητη μεταβλητή, ή • Δεξιόπλευρη μεταβλητή,ή • Επεξηγηματική μεταβλητή, ή • Παλινδρομούσα μεταβλητή, ή • Συνδιακυμιτής, ή • Μεταβλητή ελέγχου
Μια απλή υπόθεση • Η μέση τιμή του u, του όρου σφάλματος, στον πληθυσμό, είναι 0. Δηλαδή, • E(u) = 0 • Αυτή δεν είναι μία περιοριστική υπόθεση,αφού μπορούμε πάντα να χρησιμοποιήσουμε τοb0για να εξισώσουμε το E(u) ίσο με 0
ΜηδενικήΔεσμευμένη Μέση Τιμή • Χρειάζεται να κάνουμε μια βασική υπόθεσηγια το πώςτα uκαιτο x σχετίζονται. • Θέλουμε να είναι η περίπτωση στην οποία γνωρίζοντας κάτι για τοxνα μην μας δίνει καμία απολύτως πληροφορία για το u, έτσι ώστε είναι τελείως ασυσχέτιστα μεταξύ τους.Δηλαδή, • E(u|x) = E(u) = 0, που υποδηλώνει • E(y|x) = b0 + b1x
E(y|x) σαν μία γραμμική συνάρτηση του x, όπου για κάθεxη κατανομή του yσυγκεντρώνεται γύρω από το E(y|x) y f(y) . E(y|x) = b0 + b1x . x1 x2
Η Μέθοδος των Συνήθης Ελαχίστων Τετραγώνων (OLS) • H βασική ιδέα της παλινδρόμησης είναι να εκτιμήσουμε τις παραμέτρους του πληθυσμού από το δείγμα. • Ο συμβολισμός {(xi,yi): i=1, …,n} σημαίνει ένα τυχαίο δείγμα μεγέθους nαπό τον πληθυσμό. • Για κάθε παρατήρηση του δείγματος, θα ισχύει: • yi = b0 + b1xi + ui
Η γραμμή παλινδρόμησης του πληθυσμού, τα σημεία των δεδομένων του δείγματος και οι αντίστοιχοι όροι των σφαλμάτων y E(y|x) = b0 + b1x . y4 { u4 . u3 y3 } . y2 u2 { u1 . } y1 x2 x1 x4 x3 x
Εξάγοντας (OLS) Εκτιμητές • Για να εξάγουμε OLS εκτιμητέςχρειάζεται να κατανοήσουμε την κύρια υπόθεση μας, E(u|x) = E(u) = 0 από την οποία απορρέει ότι • Cov(x,u) = E(xu) = 0 • Γιατί;Θυμηθείτε την εξής βασική ιδιότητα από τις πιθανότητες, δηλαδή ότι: Cov(X,Y) = E(XY) – E(X)E(Y)
Εξάγοντας (OLS) (συνέχεια) • Μπορούμε να γράψουμε τους δυο περιορισμούς μας ως συνάρτηση των x, y, b0καιb1 , αφού u = y – b0 – b1x • E(y – b0 – b1x) = 0 • E[x(y – b0 – b1x)] = 0 • Οι οποίοι ονομάζονται περιορισμοί των ροπών.
Εξάγοντας (OLS) χρησιμοποιώνταςτην μέθοδο των ροπών • Η μέθοδος τωνροπώνεξισώνει τις ροπές του πληθυσμού με τις ροπές του δείγματος. • Τι σημαίνει αυτό;Θυμηθείτε ότι για E(X), η μέση τιμή της κατανομής του πληθυσμού, μ, ένας εκτιμητής του δείγματος για το E(X), είναι απλά η αριθμητική μέση τιμή του δείγματος,
Επιπρόσθετα στην εξαγωγή των OLS • Θέλουμε να επιλέξουμε τιμέςγια τις παραμέτρουςέτσι ώστε να εξασφαλίζεται ότι οι δειγματοληπτικές εκτιμήσεις των περιορισμών των ροπών είναι αληθής. • Οι εκτιμήσεις από το δείγμα έχουνε ως εξής:
Επιπρόσθετα στην εξαγωγή των OLS • Δοθέντος τον ορισμό της μέσης τιμής του δείγματος, και τις ιδιότητες της αθροισμάτων, μπορούμε να ξαναγράψουμε την πρώτη εξίσωση ως εξής:
Έτσι η εκτιμώμενηκλίση (OLS) είναι: Δοθέντος ότι
Περίληψη της εκτιμώμενης κλίσης του OLS. • Η εκτιμώμενη κλίση είναι η δειγματοληπτική συνδιακύμανση μεταξύ τουxκαι τουyδιαιρούμενη με την δειγματοληπτική διακύμανση του x • Εάν τοxκαι τοyείναι θετικά συσχετιζόμενα, η κλίση θα είναι θετική. • Εάν τοxκαι τοyείναι αρνητικά συσχετιζόμενα, η κλίση θα είναι αρνητική. • Μόνο χρειαζόμαστε το xπαίρνει τουλάχιστον δύο διαφορετικές τιμές στο δείγμα μας.
Περισσότερα για ΟLS • Διαισθητικά, OLS προσαρμόζει μία ευθεία στα σημεία του δείγματος έτσι ώστε το άθροισμα των τετραγώνων των κατάλοιπων ελαχιστοποιείται, από το οποίο προκύπτει και ο όρος ελάχιστα τετράγωνα. • Το κατάλοιπο, û, είναι ένας εκτιμητής του όρου του λάθους, u, και είναι η διαφορά μεταξύ της προσαρμοσμένης γραμμής (συνάρτηση παλινδρόμησης του δείγματος) και του σημείου του δείγματος.
Γραμμή παλινδρόμησης του δείγματος, τα σημεία του δείγματος (δεδομένα), και οι αντίστοιχοι όροι των σφαλμάτων y . y4 { û4 . û3 y3 } . y2 û2 { û1 } . y1 x2 x1 x4 x3 x
Εναλλακτική προσέγγιση της μεθόδου εξαγωγής των εκτιμητών • Δοθέντος της διαισθητικής ιδέας της προσαρμοσμένης γραμμής, μπορούμε να αναρτήσουμε ένα μεθοδικό πρόβλημα ελαχιστοποίησης. • Δηλαδή, θέλουμε να διαλέξουμε τις παραμέτρους έτσι ώστε να ελαχιστοποιούμε την εξής:
Εναλλακτική προσέγγιση (συνέχεια) • Αν κάποιος χρησιμοποιήσει μαθηματική ανάλυσηγια την ελαχιστοποίηση του προβλήματος με δύο παραμέτρους,εξασφαλίζει τις συνθήκες πρώτης τάξης,που είναι οι ίδιες με αυτές που βρήκαμε προηγουμένως, πολλαπλασιασμένες μεn.
Αλγεβρικές Ιδιότητεςτου (OLS) • Το άθροισματων καταλοίπων του OLS είναι0 • Έτσι, ο μέσος όρος του δείγματοςτων καταλοίπων του OLS είναι επίσης 0 • Η δειγματοληπτική συνδιακύμανσημεταξύτης παλινδρομούσα μεταβλητής (x)και των καταλοίπωνείναι 0. • Η γραμμή παλινδρόμησης του OLS πάνταδιέρχεταιαπό το σημείο των δειγματοληπτικών μέσων τιμών των x και y.
Αλγεβρικές Ιδιότητες (με ακρίβεια)
Ποιότητα της προσαρμογής (Goodness-of-Fit) • Πως διαλογιζόμαστε σχετικά με το πόσο καλά η γραμμή παλινδρόμησης, εκτιμώμενη από το δείγμα, προσαρμόζεται στα δεδομένα; • Μπορούμε να υπολογίσουμετην αναλογία του συνολικού αθροίσματος των τετραγώνων (SST) η οποίαεξηγείται από το μοντέλο, ονομαζόμενο R-τετράγωνο της παλινδρόμησης. • R2 = SSE/SST = 1 – SSR/SST
Χρησιμοποιώντας Stata for OLS παλινδρόμησης • Τώραπου έχουμε εξάγει τους τύπουςγια τονυπολογισμότων OLS εκτιμητών των παραμέτρων, θα ικανοποιηθούμε να μάθουμε ότι δεν είναι απαραίτητο να τους υπολογίσουμε με το χέρι. • Παλινδρομήσειςστο Stata είναι πολύ απλές.Για να εκτελέσειςμία παλινδρόμηση του y στο x, απλώς πληκτρολόγησε reg y x
Εφαρμογή στα Δεδομένα: Βαθμοί της California – Μέγεθος Τάξης
Ερμηνεία της Εκτιμώμενης Κλίσης και της Τεταγμένης της Αρχής
Παράδειγμα για τοR2και το Τυπικό Σφάλμα των Καταλοίπων
Υποθέσεις για Αμεροληψία του OLS • 1) Υποθέτουμε ότιτο μοντέλο του πληθυσμού είναι γραμμικόως προς τις παραμέτρους ως εξής: y = b0 + b1x + u • 2) Υποθέτουμε ότιμπορούμε να επιλέξουμε ένατυχαίο δείγμαμεγέθους n, {(xi, yi): i=1, 2, …, n}, από τον πληθυσμού. Έτσι μπορούμε να γράψουμετο μοντέλο του δείγματος ως εξής: yi = b0 + b1xi + ui • 3) Υποθέτουμε ότι E(u|x) = 0 και έτσι E(ui|xi) = 0 • 4)Υποθέτουμε ότι υπάρχει μεταβλητότητα στις τιμές των x, τουλάχιστον δύο διαφορετικά xi
Αμεροληψία του OLS (συνεχ.) • Για να υπολογίσουμε την αμεροληψία,θα γράψουμετον εκτιμητήσε όρους των παραμέτρων του πληθυσμού • Ξεκινάμε ξαναγράφοντας απλά τον τύπο ως׃
Αμεροληψία - Περίληψη • Οι OLS εκτιμητέςτωνb1καιb0είναι αμερόληπτοι. • Η απόδειξη της αμεροληψίας βασίζεταιστις τέσσεριςυποθέσεις(που είδαμε) – αν κάποια υπόθεση αποτύχει, τότε ο OLS δεν είναι απαραίτητα αμερόληπτος. • Θυμηθείτε ότι η αμεροληψίαδίνει μία εικόνα γιατον εκτιμητή – σε ένα δοσμένο δείγμαμπορούμε να βρισκόμαστε “κοντά” ή “μακριά” από την αληθινή παράμετρο.
Διακύμανση των OLS εκτιμητών • Τώρα γνωρίζουμεότιη δειγματοληπτική κατανομήτων εκτιμητώνεστιάζεται γύρω από την αληθινή παράμετρο • Θέλουμε να γνωρίζουμε πόσοαπλωμένηαυτή η κατανομή είναι • Είναι πιο εύκολα να σκεφτούμεγια αυτή τη διακύμανσηκάτω από μία επιπρόσθετη υπόθεση, έτσι • Υποθέτουμε Var(u|x) = s2(Ομοσκεδαστικότητα)
Διακύμανση του OLS (συνέχεια) • Var(u|x) = E(u2|x)-[E(u|x)]2 • E(u|x) = 0, έτσιs2= E(u2|x) = E(u2) = Var(u) • Έτσι,s2είναι επίσης μία χωρίς δεσμεύσεις διακύμανση, καλούμενη ως η διακύμανση των σφαλμάτων. • s, είναι η τετραγωνική ρίζατης διακύμανσης σφάλματος και ονομάζεται τυπική απόκλιση των σφαλμάτων • Μπορούμε να πούμε:E(y|x)=b0 + b1x και Var(y|x) = s2
Περίπτωση Ομοσκεδαστικότητας y f(y|x) . E(y|x) = b0 + b1x . x1 x2
Περίπτωση Ετεροσκεδαστικότητας f(y|x) y . . E(y|x) = b0 + b1x . x1 x2 x3 x
Διακύμανση του OLS- Περίληψη • Όσο μεγαλύτερο είναι το σφάλμα διακύμανσης, s2, τόσο μεγαλύτερηείναι η διακύμανση του εκτιμητή της κλίσης. • Όσο μεγαλύτερη είναι η μεταβλητότητα τουxi, τόσομικρότερηείναι η διακύμανση του εκτιμητή της κλίσης. • Όπως προκύπτει, ένα μεγαλύτερο μέγεθος δείγματος μειώνειτην διακύμανση του εκτιμητή της κλίσης. • Προς στιγμήν, αποτελεί πρόβλημα ότι η διακύμανση των σφαλμάτων είναι άγνωστη.
Υπολογίζοντας την Διακύμανση των Σφαλμάτων • Δεν γνωρίζουμε ποια είναι η διακύμανση σφάλματος, s2, επειδή δεν παρατηρούμε τα σφάλματα, ui • Αυτά που παρατηρούμε είναι τα κατάλοιπα, ûi • Μπορούμε να χρησιμοποιήσουμε τα κατάλοιπαγια να σχηματίσουμεμία εκτίμηση της διακύμανσης των σφαλμάτων
Υπολογίζοντας την Διακύμανση του Σφάλματος (συνέχεια)
Υπολογίζοντας την Διακύμανση των Σφαλμάτων (συνέχεια)