230 likes | 344 Views
Αυτο-συσχέτιση ( auto-correlation ). covariance («συνδιασπορά») και συντελεστής συσχέτισης (correlation coefficient) αυτο-συσχέτιση (auto-correlation) βασικά παραδείγματα. Covariance («συνδιασπορά»). παράδειγμα :
E N D
Αυτο-συσχέτιση (auto-correlation) • covariance(«συνδιασπορά») και συντελεστής συσχέτισης (correlation coefficient) • αυτο-συσχέτιση(auto-correlation) • βασικά παραδείγματα
Covariance («συνδιασπορά») • παράδειγμα: • έχουμε μετρήσει τη διάμετρο Δiκαι το ύψος Υiγια Ν δέντρα, δηλ. έχουμε Ν ζεύγη μετρήσεων (Δi,Υi), i = 1,2,3, …, N • ερώτηση: υπάρχει κάποια σχέση μεταξύ Δiκαι Υi, π.χ. «όσο πιο μεγάλο είναι Δi, τόσο πιο μεγάλο είναι Υi» ? • πρώτος τρόπος απάντησης:γραφική παράσταση Υi Υi περίπτωση 2: περίπτωση 1: Δi Δi υπάρχει σχέση, Υi ανάλογο του Δi σχέση ?
ποσοτικός προσδιορισμός της σχέσης μεταξύ Δ και Υ:covariance(«συνδιασπορά») • ερμηνεία:- Cov(Δ,Υ) > 0: αν Δ μεγάλο (μεγαλύτερο από μΔ) τότε καιΥ μεγάλο (μεγαλύτερο από μΥ), αν Δ μικρό τότε και Υ μικρό - Cov(Δ,Υ) < 0: αν Δ μικρό (μικρότερο από μΔ) τότε Υ μεγάλο (μεγαλύτερο από μΥ), αν Δ μεγάλο τότε Υ μικρό - Cov(Δ,Υ) = 0:Υ μικρό ή μεγάλο, ανεξάρτητα από το αν Δ είναι μικρό ή μεγάλο • η τιμή της Cov εξαρτάται από τις τιμές (και μονάδες) των Δ και Υ, κάτι το οποίο δυσκολεύει την ερμηνεία της Cov: για ποιές τιμές της Cov μπορούμε να πούμε ότι η σχέσημεταξύ Δ και Υ είναι ισχυρή ή ασθενής ? όπου (μέσος όρος των Δi) και (μέσος όρος των Yi)
ο συντελεστής συσχέτισης r (correlation coefficient) • ή(οι παράγοντες 1/(Ν-1) φεύγουν) ) τώρα -1 ·r· 1 (η διασπορά των Δi) όπου (η διασπορά των Yi) και
ο συντελεστής συσχέτισηςδίνει και το βαθμό της συσχέτισης: • r = 1ή r = -1: μέγιστη συσχέτιση • r > 0: θετική συσχέτιση (αν Δ μεγάλο τότε και Υ μεγάλο, αν Δ μικρό τοτε και Υ μικρό), τόσο πιο ισχυρή συσχέτιση όσο πιο κοντάείναι το rστο 1 • r < 0:αρνητική συσχέτιση, «αντι-συσχέτιση» (αν Δ μεγάλο τότε Υ μικρό, αν Δ μικρό τοτε Υμεγάλο), τόσο πιο ισχυρή αντι-συσχέτιση όσο πιο κοντά είναι το rστο -1 • r = 0: καμμία συσχέτιση
συντελεστής συσχέτισης: εφαρμογή στις ΧΣ • έστω μια ΧΣ X(ti) • σχηματίζουμε ζεύγη(X(t1),X(t1+k)), (X(t2),X(t2+k)), (X(t3),X(t3+k)), ….. (X(tN-k),X(tN))δηλ. ζεύγη από την ΧΣ και την μετατοπισμένη κατά kΧΣ • συντελεστής αυτο-συσχέτισηςόπου ο μέσος όρος της ΧΣ X(ti+k) κ t X(ti)
συντελεστής αυτο-συσχέτισης: ιδιότητες • κ =0,1,2,3, …., N-1 • το σύνολο των rkονομάζεται (συνάρτηση) αυτο-συσχέτιση(ς) [auto-correlation (function), acf] • r-k = rk • r0 = (Ν-1)σ2Χ / (Ν-1)σ2Χ = 1 • πρόβλημα: για μεγάλα k έχουμε μόνο λίγους όρους )rkέχει μεγάλο στατιστικό σφάλμα γιαμεγάλο k)στην πράξη παίρνουμε υπ’όψιν τα rkμόνο μέχρι περίπου Ν/4 ή το πολύ Ν/2 • -1 ·rk· 1, για όλα τα k
αυτο-συσχέτιση: ερμηνεία • {rk} δίνειτο μέτρο της συσχέτισης (correlation)παρατηρήσεων/μετρήσεων οι οποίες απέχουν κατά τοχρονικό διάστημα τκ • {rk}εκφράζει κατά πόσο οι μετρήσεις με χρονική απόσταση τκ έχουν σχέση μεταξύ τους, δηλ. αν π.χ. Χ(ti)παίρνει μεγάλη τιμή τότε και Χ(ti+k)παίρνει μεγάλη τιμή, ή αντιθέτως παίρνει μικρή ή αρνητική τιμή, ή δεν επηρεάζεται καθόλου • {rk}εκφράζει τη μνήμη της ΧΣ (καλύτερα: της διαδικασίας η οποία έχει παράγει την ΧΣ), δηλ. κατά πόσο το παρόν θυμάται το παρελθόν, και κατά πόσο το μέλλον θα επηρεαστεί από το παρόν
αυτο-συσχέτιση, παράδειγμα: αρχική ΧΣ: σαν θόρυβος, αλλά και με δομές (AR-1, a1=0.7, u2 [-1,1]) αυτο-συσχέτιση (acf), μέχρι Ν/4 1/e acf, μέχρι k = 20 • η acf πέφτει μεν στο μηδέν, αλλά τα πρώτα rk > 0 )η ΧΣ έχει μνήμη • υπάρχει χαρακτηριστικός χρόνος (characteristic time) = χρονικό διάστημα για το οποίο η ΧΣ θυμάται το παρελθόν της
χαρακτηριστικός χρόνος 1/e acf, μέχρι k = 20 • υπάρχουν 3 βασικοί τρόποι για τον ορισμό του χαρακτηριστικού χρόνουc • c:= χρόνος όπου η acf περνάει πρώτη φορά από το μηδέν(c» 10.5) • c:= χρόνος όπου η acf έχει το πρώτο ελάχιστο(c» 11) • c:= χρόνος όπου η acf πέφτει κάτω από 1/e (e η σταθερή του Euler,1/e» 0.37) (c» 2.5) • ποιόν ορισμό προτιμάμε εξαρτάται απά την εφαρμογή, συχνά ο «1/e time»είναι μια καλή επιλογή – αιτία: συχνά η acf πέφτει εκθετικά acf, μέχρι k =10 log-linear 1/e γραμμικό στο log-lin , rk» exp[-a k]
ο χαρακτηριστικός χρόνος και η αρχική ΧΣ αρχική ΧΣ, μέχρι 40 2.5 μικρές δομές 10 «ταλαντώσεις» c» 10.5 (χρόνος όπου η acf περνάει πρώτη φορά από το μηδέν) c» 11 (χρόνος όπου η acf έχει το πρώτο ελάχιστο) c» 2.5 (χρόνος όπου η acf πέφτει κάτω από 1/e) ) συχνά μπορούμε να αναγνωρίσουμε τον χαρακτηριστικό χρόνο στην αρχική ΧΣ
εναλλακτικός τρόπος παράστασηςτης συσχέτισης γραφική παράσταση των ζευγών (X(ti), X(ti+k)), i = 1,2,3, …, N-k k = 1 X(ti+1) γραμμική δομή, με θόρυβο Χ(ti) k = 20 X(ti+20) καμμία δομή, θόρυβος Χ(ti)
Ανάλυση: σύνοψη (μέθοδος του τρέχοντα μέσου όρου) αρxική ΧΣ = τάση + περιοδικότητα (1o υπόλοιπο) + θόρυβος (2ο υπόλοιπο)
αυτο-συσχέτιση, παράδειγμa: περιοδική ΧΣ αρχική ΧΣ, X(ti) = 10 sin(2π ti/39.5) περιοδική αυτο-συσχέτιση (acf), μέχρι Ν, δηλ. ολόκληρηη acf η acf είναι περιοδική, όμως το πλάτος μικραίνει …
Γιατί πέφτει το πλάτος ? όσο μεγαλώνει το k, έχουμε λιγότεροyς όρους στο άθροισμα, rkέιναι «υποτιμημένο» (biased, underestimated), και το στατιστικό σφάλμα αυξάνει ) παίρνουμε υπ’όψιν τα rkμόνομέχρι Ν/4 ή το πολύ Ν/2 εξ’αλλου στην αυτο-συσχέτιση μας ενδιαφέρει κυρίως η απόσβεση (decay) της συσχέτισης (correlation), δηλ. περίπου μέχρι το kόπου το rk γίνεται 0
αυτο-συσχέτιση, παράδειγμa: περιοδική ΧΣ, ξανά αρχική ΧΣ, X(ti) = 10 sin(2π ti/39.5) περιοδική αυτο-συσχέτιση (acf), μέχρι N/4 η acf είναι περιοδική (το πλάτος μικραίνει λίγο λόγω στατιστικού σφάλματος) μέρος της αρχικής ΧΣ + acf η περίοδος είναι ίδια στην αρχική ΧΣ και στην acf ) για σχετικά καθαρά περιοδικές ΧΣ, η acf δεν μας δίνει πολλές πληροφορίες τις οποίες δεν τις είχαμε ήδη από την αρχική ΧΣ
περιοδική ΧΣ: αναλυτική acfΧ(ti) = a sin( ti)X = 0)rk»isin( ti) sin( ti+k) • sin(A) sin(B) = ½[ cos(B-A) - cos(A+B)] • )rk» (1/2) i [ cos( (ti+k-ti)) - cos( (ti+k+ti)) ] » cos(k) - i cos( (ti+k+ti)) k = 0 (όπως ο μέσος όρος !) ) για περιοδικές ΧΣ η acf έιναι επίσης περιοδική, με την ίδια περίοδο, και ξεκινά από το 1 (r0 = 1)
Άσκηση 5: • Δημιουργείστε τη ΧΣ X(ti) = 10 sin(2π ti/39.5) + 50.0i=1,2,3, …, N,και N = 512 • υπολογίστε την αυτο-συσχέτισηγια k = 0,1,2,3, ... • γραφική παράσταση, μέχρι Ν/4(ο χρονικός άξονας ξεκινά από 0 = 0 !)
ΧΣ p=0 καμμία πρόσθεση πρόσθεση στη δεξιά πλευρά πρόσθεση στην αριστερά πλευρά πρόσθεση αριστερά και δεξιά
αυτο-συσχέτιση, παράδειγμa: θόρυβος αρχική ΧΣ, ομοιόμορφος θόρυβος στο [-2,2] αυτο-συσχέτιση (acf) r0 = 1, και rk¼ 0, για k =1,2,3, … ) η ΧΣ είναι εντελώς τυχαία (completely random)και παριστάνειλευκό θόρυβο (white noise) ορισμός: λευκός θόρυβος, rk = (k) = μη-συσχετιζόμένη (uncorrelated) ΧΣ
πότε μπορούμε να πούμε ότι rk¼ 0 ? • μπορεί να αποδειχθεί, ότιαν μια ΧΣ είναι εντελώς τυχαία, τότε 95% των rkβρίσκονται στο διάστημα(95% confidence interval) • τα 5% των rkεπιτρέπεται να βρίσκονται έξω, όχι όμως συστηματικά ! • στο παράδειγμα του λευκού θορύβου: • )τεστ για το αν μια ΧΣ είναι τυχαία: (1) υπολόγισε την αυτο-συσχέτιση,(2) αν 95% των rkείναι στο διαστημα τότεη ΧΣ είναι εντελώς τυχαία acf
Άσκηση 6: • Δημιουργείστε τη ΧΣ X(ti) = G(ti),i=1,2,3, …, N, και N = 512όπου G(ti) θόρυβος με κατανομή Gauss (μέσος όρος μ = 5 και στάνταρτ απόκλιση σ = 2) • γραφική παράσταση της ΧΣ X(ti) • ιστόγραμμα της ΧΣ X(ti), μαζί με την κατανομή Gauss • υπολογίστε την αυτο-συσχέτιση,γραφική παράσταση, μαζί με το «διάστημα ελέγχου» (confidence interval)
τυχαίοι αριθμοί με κατανομή Gauss στη Mathematica:<<Statistics`ContinuousDistributions`Random[ NormalDistribution[5.,2.] ] μέσος όρος μ στάνταρτ απόκλιση σ • γραφική παράσταση της κατανομής Gauss:pgauss = Plot[ nx*PDF[ NormalDistribution[5.,2.] , z ] , {z,0,10} ]; • ιστόγραμμα στη Mathematica:xh=Histogram[x,HistogramCategories! 10,Ticks ! IntervalCenters , HistogramScale! 1] hi xi = 1 αριθμός των«δοχείων»(pdf, εμβαδόν = 1) (bins, διαστημάτων)