650 likes | 977 Views
Κεφάλαιο 1 4. Ανάλυση Διακύμανσης Analysis of Variance ( ANOVA ). Ανάλυση Διακύμανσης …. Η Ανάλυση Διακύμανσης είναι μία τεχνική που μας επιτρέπει να συγκρίνουμε δύο ή περισσότερους πληθυσμούς με διαστημικά δεδομένα. Η Ανάλυση Διακύμανσης είναι :
E N D
Κεφάλαιο 14 Ανάλυση Διακύμανσης Analysis of Variance ( ANOVA )
Ανάλυση Διακύμανσης… Η Ανάλυση Διακύμανσης είναι μία τεχνική που μας επιτρέπει να συγκρίνουμεδύο ήπερισσότερουςπληθυσμούς μεδιαστημικά δεδομένα. Η Ανάλυση Διακύμανσης είναι: • μία ακραίως δυναμική και ευρέως εφαρμοσμένη διαδικασία. • μία διαδικασία που καθορίζει εάνυπάρχουν διαφορέςμεταξύ τωνμέσων των πληθυσμών. • μία διαδικασία η οποία δουλεύει με την ανάλυσηδειγματοληπτική διακύμανση.
Ανάλυση Διακύμανσης Ενός Παράγοντα … Ανεξάρτητα δείγματα επιλέγονται απόkπληθυσμούς: Σημειώστε: Αυτοί οι πληθυσμοί καλούνται ως αγωγές. Δεν απαιτείται ότι n1 = n2 = … = nk.
Πίνακας 14.1 Συμβολισμός για Ανάλυση Διακύμανσης με Έναν Παράγοντα Αγωγή Μέγεθος Δείγματος Δειγματοληπτική Μέση Τιμή
Συμβολισμός 1 2 k Πρώτη παρατήρηση, πρώτο δείγμα Δεύτερη παρατήρηση, δεύτερο δείγμα Ανεξάρτητα Δείγματα επιλέγονται απόkπληθυσμούς (αγωγές). X11 x21 . . . Xn1,1 X12 x22 . . . Xn2,2 X1k x2k . . . Xnk,k Μέγεθος Δείγματος Δειγματοληπτική Μέση Τιμή X είναι μία «μεταβλητή απόκρισης».
Ανάλυση Διακύμανσης με Έναν Παράγοντα… Νέα Ορολογία: xείναι ημεταβλητή απόκρισης,και οι τιμές της είναι οι αποκρίσεις. xijαναφέρεται στηνi στηπαρατήρηση στοj στοδείγμα. Π.χ.x35είναι η τρίτη παρατήρηση από το πέμπτο δείγμα. nj ∑ xij xj = μέσος του jthδείγματος= nj i=1 nj =ο αριθμός των παρατηρήσεων του δείγματος από τονjστοπληθυσμό.
Ανάλυση Διακύμανσης με Έναν Παράγοντα…
Ανάλυση Διακύμανσης με Έναν Παράγοντα… Επιπρόσθετη Νέα Ορολογία: Η μονάδα που μετρούμε καλείταιπειραματική μονάδα. Το κριτήριο το οποίο ταξινομεί τους πληθυσμούς καλείταιπαράγοντας. Κάθε πληθυσμός καλείταιεπίπεδο παράγοντα.
Παράδειγμα 14-1… Μία εταιρία παρασκευάζει έναν νέο προϊόν χυμού μήλου με τα εξής χαρακτηριστικά … καλύτερη συσκευασία, ίδια ή καλύτερη ποιότητα, και χαμηλότερη τιμή όταν συγκρίνονται με ήδη υπάρχοντα προϊόντα. Ποιο χαρακτηριστικό θα ήταν καλύτερα να προβάλει η εταιρεία με διαφημιστική εκστρατεία; Πρώτου να διαφημιστεί το προϊόν σε εθνικό επίπεδο, δοκιμάζονται τα τρία χαρακτηριστικά σε τρεις πόλεις,και τα δεδομένα καταγράφονται … Υπάρχουν διαφορές στις πωλήσεις μεταξύ στις τρεις παραπάνω αγορές;
Πόλη 1 Πόλη 2 Πόλη 3 (Συσκευασία) (Ποιότητα) (Τιμή) 529.00 658.00 793.00 514.00 663.00 719.00 711.00 606.00 461.00 529.00 498.00 663.00 604.00 495.00 485.00 557.00 353.00 557.00 542.00 614.00 804.00 630.00 774.00 717.00 679.00 604.00 620.00 697.00 706.00 615.00 492.00 719.00 787.00 699.00 572.00 523.00 584.00 634.00 580.00 624.00 672.00 531.00 443.00 596.00 602.00 502.00 659.00 689.00 675.00 512.00 691.00 733.00 698.00 776.00 561.00 572.00 469.00 581.00 679.00 532.00 Δεδομένα Xm15-01
Ορολογία Παράδειγμα 14-1… xείναι ημεταβλητή απόκρισης,και οι τιμές της είναιαποκρίσεις. εβδομαδιαίες πωλήσειςείναι η μεταβλητή απόκρισης; οι ακριβείς πωλήσειςείναι οι αποκρίσεις στο παράδειγμα. xijαναφέρεται στηνiστηπαρατήρηση στο jστοδείγμα. Δηλαδήx42είναι οι πωλήσεις στην τέταρτη εβδομάδα από την Πόλη #2: 717 συσκευασίες. x20, 3είναι οι πωλήσεις της τελευταίας εβδομάδας από την Πόλη #3: 532 συσκευασίες. Κόμμα προστίθεται για διευκρίνιση
Ορολογία Παράδειγμα 14-1… Η μονάδα που μετρούμε καλείταιπειραματική μονάδα. Η μεταβλητή απόκρισης είναι οι εβδομαδιαίες πωλήσεις Το κριτήριο το οποίο ταξινομεί τους πληθυσμούς καλείταιπαράγοντας. Ηστρατηγική διαφήμισηςείναι ο παράγοντας που μας ενδιαφέρει.Αυτός είναι ομόνοςπαράγοντας που μελετάμε (εκ’ τούτου ο όρος «ενός παράγοντα» ανάλυση διακύμανσης). Κάθε πληθυσμός είναι έναεπίπεδο παράγοντα. Στο παράδειγμα, υπάρχουν τρία επίπεδα παράγοντα:συσκευασία, ποιότητα, και τιμή.
Ορολογία Σε αυτό το πρόβλημα … Μεταβλητή απόκρισης – εβδομαδιαίες πωλήσειςΑποκρίσεις – ακριβείς τιμές πωλήσεων Πειραματική μονάδα – εβδομάδες στις τρεις πόλεις όταν καταγράφουμε τιμές πωλήσεων. Παράγοντας – το κριτήριο με το οποίο ταξινομούμε πληθυσμούς (οι αγωγές). Σε αυτό το πρόβλημα ο παράγοντας είναι η στρατηγική του μάρκετινγκ. Επίπεδα παράγοντα – Τα ονόματα των πληθυσμών (αγωγών).Σε αυτό το πρόβλημα τα επίπεδα του παράγοντα είναι οι στρατηγικές του μάρκετινγκ.
Αναγνωρίστε Παράδειγμα 14-1… Η μηδενική υπόθεση σε αυτή την περίπτωση είναι: H0: μ1= μ2=μ3 δηλαδή δεν υπάρχουν διαφορές μεταξύ των μέσων των πληθυσμών. Η εναλλακτική υπόθεση γίνεται: H1: τουλάχιστον δύο μέσοι διαφέρουν Τώρα, χρειαζόμαστε κάποιο στατιστικό τεστ …
Ο ορθολογισμός του στατιστικού τεστ Δύο είδη μεταβλητότητας δουλεύονται όταν ελέγχουμε την ισότητα των μέσων των πληθυσμών.
Ο ορθολογισμός πίσω από το στατιστικό τεστ – I • Εάν η μηδενική υπόθεση είναι αληθές, θα αναμένουμε όλοι οι δειγματοληπτικοί μέσοι να είναι κοντά μεταξύ τους (και έτσι κοντά στον συνολικό μέσο). • Εάν η εναλλακτική υπόθεση είναι αληθές, τουλάχιστον κάποιοι από τους μέσους θα διαφέρουν. • Έτσι, μετράμε την μεταβλητότητα μεταξύ των δειγματοληπτικών μέσων.
Μεταβλητότητα μεταξύ στους δειγματοληπτικούς μέσους • Η μεταβλητότητα μεταξύ των δειγματοληπτικών μέσωνμετράτε ως το άθροισμα των τετραγώνων των αποστάσεων μεταξύσε κάθε μέσο και τον συνολικό μέσο. Αυτό το άθροισμα καλείται το Άθροισμα Τετραγωνικών Αγωγών (Sum of Squares for Treatments) SST Στο παράδειγμα μας οι αγωγές αντιπροσωπεύονται από τις διαφορετικές στρατηγικές διαφήμισης.
Άθροισμα τετραγώνων των αγωγών (SST) There are k treatments Σημειώστε: Όταν οι δειγματοληπτικοί μέσοι είναι κοντά ο ένας με τον άλλο, οι αποστάσεις τους από τον συνολικό μέσο είναι μικρές, καταλήγοντας με ένα μικρό SST. Έτσι, μεγάλο SST υποδεικνύει μεγάλη διασπορά μεταξύ των δειγματοληπτικών μέσων, που υποστηρίζει H1. The mean of sample j The size of sample j
Στατιστικοί Έλεγχοι … Αφούμ1= μ2=μ3είναι αυτό που μας ενδιαφέρει, μία στατιστική που μετράει τηνεγγύτητα των δειγματοληπτικών μέσωνθα μας ενδιέφερε. Μία τέτοια στατιστική υπάρχει, και καλείταιδιασπορά μεταξύ αγωγών. Συμβολίζεται ως SST, συντομογραφία για«Άθροισμα τετραγώνων των αγωγών », και υπολογίζεται ως: Συνολικός μέσος Άθροισμα επίkαγωγών Ένα μεγάλο SST υποδεικνύει μεγάλη διασπορά μεταξύ δειγματοληπτικών μέσωνκαι υποστηρίζει την H1.
ΥΠΟΛΟΓΙΣΤΕ Παράδειγμα 15.1… Αφού: Εάνείχαμε την περίπτωση: τότε SST = 0 και η μηδενική υπόθεση, H0: Θα υποστηριζόταν. Πιο γενικά,μία «μικρή τιμή»του SST υποστηρίζει την μηδενική υπόθεση. Η ερώτηση είναι,πόσο μικρή είναι «μικρή αρκετά»;
ΥΠΟΛΟΓΙΣΤΕ Παράδειγμα 15.1… Τα ακόλουθα δειγματοληπτικά στατιστικά στοιχεία και ο συνολικός μέσος υπολογίζονται … Εκ τούτου, η διασπορά μεταξύ αγωγών, τοάθροισμα τετραγώνων των αγωγών,είναι: Είναι SST = 57,512.23 «αρκετά μεγάλο»για να υποδείξουμε ότι οι μέσοι των πληθυσμώνδιαφέρουν;
Ο ορθολογισμός πίσω από το στατιστικό τεστ – IΙ • Μεγάλη μεταβλητότητα εντός(within)των δειγμάτων εξασθενεί την «ικανότητα» των δειγματοληπτικών μέσων να αντιπροσωπεύουν τους μέσους των πληθυσμών. • Συνεπώς, ακόμα και αν οι δειγματοληπτικοί μέσοι ενδέχεται να διαφέρουν αξιοσημείωτα ο ένας με τον άλλο, SST πρέπει να συνεκτιμήθει σε σχέση ως προς την «διασπορά εντός δειγμάτων».
Διασπορά Εντός Δειγμάτων • Η μεταβλητότητα εντός δειγμάτων μετριέται προσθέτοντας όλες τις τετραγωνισμένες αποστάσεις μεταξύ των παρατηρήσεων και των δειγματοληπτικών μέσων. Αυτό καλείται το Άθροισμα Τετραγώνων των Σφαλμάτων (Sum of Squares for Error) SSE Στο παράδειγμά μας αυτό είναι το άθροισμα όλων των τετραγωνισμένων διαφορών sum of all squared differences μεταξύ των πωλήσεων της πόληςjκαι του δειγματοληπτικού μέσου της πόληςj (και στις τρεις πόλεις).
Στατιστικοί Έλεγχοι… SST μας δίνει τηνδιασπορά εντός αγωγών. Ένα δεύτερο στατιστικό στοιχείο, SSE (Άθροισμα Τετραγώνων των Σφαλμάτων) μετράει την διασπορά εντός αγωγών. SSE δίνεται από:ή: Στην δεύτερη διατύπωση, είναι ευκολότερο να δούμε ότι παρέχει έναμέτρο του ποσού της διασποράςπου μπορούμε να αναμένουμε από την τυχαία μεταβλητή που παρατηρούμε.
ΥΠΟΛΟΓΙΣΤΕ Παράδειγμα 15.1… Υπολογίζουμε τις δειγματοληπτικές διακυμάνσεις ως: 3 Και από αυτές, υπολογίζουμε την διασπορά εντός αγωγώνως:
Άθροισμα Τετραγώνων των Σφαλμάτων (SSE) Είναι το SST = 57,512.23 αρκετά μεγάλο σε σχέση ως προς το SSE = 506,983.50 ώστε να απορρίψουμε την μηδενική υπόθεση που προϋποθέτει ότι όλοι οι μέσοι είναι ίσοι; Χρειαζόμαστε ακόμα μερικές ποσότητες ώστε να συσχετίσουμε το SST και το SSE μαζί με ωφέλιμο τρόπο…
Μέσοι Τετραγώνων … Ο μέσος τετραγώνων των αγωγών (MST) δίνεται από: είναιF-κατανεμημένημεk–1 καιn–kβαθμούς ελευθερίας. Ο μέσος τετραγώνων των σφαλμάτων (MSE) δίνεται από: Και ο στατιστικός έλεγχος: ν1 = 3 – 1 = 2 ; ν2 = 60 – 3 = 57
ΥΠΟΛΟΓΙΣΤΕ Παράδειγμα 15.1… Μπορούμε να υπολογίσουμε τους μέσους των τετραγώνων των αγωγών και τους μέσους των τετραγώνων των σφαλμάτων ως:
Παράδειγμα 15.1… ΥΠΟΛΟΓΙΣΤΕ Δοθέντος την F-στατιστική: Πέφτει η F = 3.23 στην περιοχή απόρριψης ή όχι; Πως συγκρίνεται με την κριτική τιμή της F; Σημειώστε ότι απαιτούνται οι υποθέσεις: 1. Οι ελεγχόμενοι πληθυσμοί είναι κανονικά κατανεμημένοι. 2. Οι διακυμάνσεις όλων των πληθυσμών είναι ίσες.
ΕΡΜΗΝΕΥΣΤΕ Παράδειγμα 15.1… Αφού ο στόχος του υπολογισμού της F-στατιστικής είναι να καθορίσουμε αν η τιμή του SST είναι αρκετά μεγάλοώστε να απορρίψουμε την μηδενική υπόθεση, εάν SST είναι μεγάλο, τότε και το F θα είναι μεγάλο. Άρα η περιοχή απόρριψης είναι: Η τιμή της Fκριτικήείναι:
ΕΡΜΗΝΕΥΣΤΕ Παράδειγμα 15.1… Αφού F = 3.23 είναι μεγαλύτερη από την Fκριτική = 3.15, απορρίπτουμε την μηδενική υπόθεση (H0: μ1= μ2=μ3 ) για την εύνοια της εναλλακτικής υπόθεσης (H1: τουλάχιστον δύο μέσοι των πληθυσμών διαφέρουν). Δηλαδή είναι:υπάρχει αρκετή μαρτυρία να συμπεράνουμε ότι οι μέσοι των εβδομαδιαίων πωλήσεων διαφέρουν μεταξύ των τριών πόλεων. Με άλλα λόγια: είμαστε αρκετά έμπιστοι ότι η διαφορετική στρατηγική που χρησιμοποιήθηκεγια την διαφήμιση των προϊόντων θα προξενήσει διαφορές στις πωλήσεις.
Η Δειγματοληπτική Κατανομή για το Παράδειγμα 14.1 π-τιμή = .0468 Περιοχή Απόρριψης
Περίληψη των Τεχνικών (μέχρι τώρα)… Ανάλυσης Διακύμανσης Άθροισμα Τετραγώνων Μέσος Τετραγώνων Αγωγές Σφάλματα Στατιστικός Έλεγχος:
ANOVA Πίνακας… Τα αποτελέσματα της ανάλυσης της διακύμανσης(analysis of variance) συνήθως παρουσιάζονται σε ένανANOVAπίνακα… F-stat=MST/MSE
Ανάλυση Διακύμανσης σε Σχεδιασμό Πειραμάτων Ο σχεδιασμός πειράματοςείναι ένας από τους παράγοντες που καθορίζει ποια τεχνική θα χρησιμοποιήσουμε. Στο προηγούμενο παράδειγμα συγκρίνουμε τρεις πληθυσμούς βασισμένοι σε έναν παράγοντα – στρατηγική διαφήμισης.
Ανάλυση Διακύμανσης σε Σχεδιασμό Πειραμάτων Έναπολύ-παραγοντικό πείραμαείναι ένα πείραμα στο οποίο δύο ή περισσότεροι παράγοντες ορίζουν τις αγωγές. Για παράδειγμα, εάν αντί να ποικίλουμε μόνο την στρατηγική διαφήμισης, μπορούμε να ποικίλουμε τα μέσα διαφήμισης (δηλαδή, τηλεόραση ή εφημερίδα), τότε έχουμεανάλυση διακύμανσης δύο παραγόντων. Ο πρώτος παράγοντας,στρατηγική διαφήμισης, έχει τρία επίπεδα (συσκευασία, ποιότητα, και τιμή) ενώ ο δεύτερος παράγοντας,μέσο διαφήμισης, έχει δύο επίπεδα (TV ή εφημερίδα).
Δύο παράγοντες One - way ANOVA Single factor Two - way ANOVA Two factors Response Response Treatment 3 (level 1) Treatment 2 (level 2) Treatment 1 (level 3) Ένας παράγοντας Level 3 Level2 Factor A Level 1 Level2 Level 1 Factor B
Ανεξάρτητα Δείγματα και Τεμάχια Όπως και στα «Ζεύγη Δειγμάτων», ένα σχέδιο με τυχαιοποιημένα τεμάχια (blocks)περιορίζειτην διασποράεντόςτων δειγμάτων, κάνοντας ευκολότερη τηνανίχνευσηδιαφορώνμεταξύπληθυσμών. Ο όρος τεμάχιο αναφέρεται ωςταιριαστές ομάδες παρατηρήσεωναπό κάθε πληθυσμό. Μπορούμε επίσης να εκτελέσουμε ένα πείραμα με τεμάχια χρησιμοποιώντας το ίδιο υποκείμενο για κάθε τεμάχιο σε ένα πείραμα με «επαναλαμβανόμενα μέτρα».
Ανάλυση Διακύμανσης Τυχαιοποιημένων Τεμαχίων Ο σκοπός του σχεδιασμού ενός πειράματος με τυχαιοποιημένα τεμάχια είναι να περιορίσει τηνδιασπορά εντός αγωγώνγια την πιο εύκολη ανίχνευσηδιαφορών μεταξύ των μέσων των αγωγών. Σε αυτό το σχέδιο, διαμελίζουμε την συνολική απόκλιση σετρειςπηγές απόκλισης: SS(Total) = SST + SSB + SSE όπουSSB, το άθροισμα τετραγώνων των τεμαχίων, μετρά την απόκλιση μεταξύ των τεμαχίων.
Τυχαιοποιημένα Τεμάχια Τεμαχίστε όλες τις παρατηρήσεις με κάποια ομοιότητα επί των αγωγών Αγωγή 4 Αγωγή 3 Αγωγή 2 Αγωγή 1 Τεμάχιο 3 Τεμάχιο2 Τεμάχιο 1
Τυχαιοποιημένα Τεμάχια … Επιπρόσθετα στιςkαγωγές, εισάγουμε συμβολισμό γιαbτεμάχια στον σχεδιασμό του πειράματος … Μέσος των παρατηρήσεων του 1ουτεμαχίου Αγωγές Τεμάχια Μέσος των παρατηρήσεων της 2ηςαγωγής
Αθροίσματα Τετραγώνων: Τυχαιοποιημένα Τεμάχια … Τετραγωνίζοντας την «απόσταση» από τον συνολικό μέσο,οδηγούμαστε στον ακόλουθους τύπους … Στατιστικός έλεγχος για αγωγές Στατιστικός έλεγχος για τεμάχια
ANOVA Πίνακας… Μπορούμε να συνοψίσουμε αυτή την νέα πληροφορία σε έναν πίνακα ανάλυση διακύμανσης (ANOVA) με τυχαιοποιημένα τεμάχια ως έξης …
Στατιστικοί Έλεγχοι & Περιοχές Απόρριψης … Στατιστικός Έλεγχος Περιοχή Απόρριψης Αγωγές Τεμάχια
ΑΝΑΓΝΩΡΙΣΤΕ Παράδειγμα 14.2… Έχουν διαφορετική αποτελεσματικότητα τέσσερα νέα φάρμακα; 25 ομάδες αντρών δημιουργήθηκαν σύμφωνα με την ηλικία και το βάρος, και τα αποτελέσματα καταγράφηκαν. Οι υποθέσεις για να έλεγχο αυτής της περίπτωσης είναι: H0: μ1= μ2 =μ3=μ4 H1: Τουλάχιστον δύο μέσοι διαφέρουν
ΟμάδαΦάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 2.70 2.40 6.50 16.20 8.30 5.40 15.40 17.10 7.70 16.10 9.00 24.30 9.30 19.20 18.70 18.90 7.90 23.80 8.80 26.70 25.20 27.30 17.60 25.60 26.10 8.70 9.30 10.00 12.60 10.60 15.40 16.30 18.90 13.70 19.40 18.50 21.10 19.30 21.90 22.10 19.40 25.40 26.50 22.20 23.50 19.60 30.10 26.60 24.50 27.40 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 23.00 24.00 25.00 6.60 7.10 7.50 9.90 13.80 13.90 15.90 14.30 16.00 16.30 14.60 18.70 17.30 19.60 20.70 18.40 21.50 20.40 21.90 22.50 21.50 25.20 23.00 23.70 28.40 12.60 3.50 4.40 7.50 6.40 13.50 16.90 11.40 16.90 14.80 18.60 21.20 10.00 17.00 21.00 27.20 26.80 28.00 31.70 11.90 28.70 29.50 22.20 19.50 31.20
ΑΝΑΓΝΩΡΙΣΤΕ Παράδειγμα 14.2… Κάθε από τα τέσσερα φάρμακα μπορεί να θεωρηθεί ως αγωγή. Κάθε ομάδα μπορεί να τεμαχιστεί, αφού κατασκευαστήκαν σύμφωνα με την ηλικία και το βάρος. Σχεδιάζοντας το πείραμα κατά αυτό τον τρόπο, εξαλείφουμε την μεταβλητότητα της μείωσης της χοληστερίνης σε διαφορετικούς συνδυασμούς ηλικίας και βάρους. Αυτό βοηθάει ναανιχνεύσουμε διαφορέςστην μείωση του μέσου χοληστερίνηςαποδομένη σε διαφορετικάφάρμακα.
Παράδειγμα 14.2… Τα δεδομένα
Έξοδος Υπολογιστικού Προγράμματος b - 1 K - 1 MSB MST Τεμάχια Αγωγές