130 likes | 236 Views
Εξόρυξη Χρονικών Δεδομένων. Εξόρυξη Χρονικών Δεδομένων. Ανάλυση χρονικών σειρών π.χ. στο χρηματιστήριο πρόβλεψη μελλοντικών τιμών μετοχών καθορισμός παρόμοιων τάσεων στο χρόνο κατηγοριοποίηση συμπεριφοράς. Βάσεις Δεδομένων από Χρονοσειρές.
E N D
Εξόρυξη Χρονικών Δεδομένων • Ανάλυση χρονικών σειρών • π.χ. στο χρηματιστήριο • πρόβλεψη μελλοντικών τιμών μετοχών • καθορισμός παρόμοιων τάσεων στο χρόνο • κατηγοριοποίηση συμπεριφοράς
Βάσεις Δεδομένων από Χρονοσειρές • Ορισμός: Μια χρονοσειρά είναι μια ακολουθία πραγματικών αριθμών, που αναπαριστούν τις μετρήσεις μιας πραγματικής μεταβλητής σε ισαπέχοντα χρονικά διαστήματα • Μεταβολή των εργοστασικώντιμών • Όγκος πωλήσεων ως προς τον χρόνο • Μετρήσεις θερμοκρασίας σε καθημερινή βάση • ΒΔ Χρονοσειρών: Μια βάση δεδομένων με ακολουθίες χρονοσειρών
Χρησιμότητα της Ανάλυσης Χρονοσειρών • Identifying Patterns • Trend analysis • A company’s linear growth in sales over the years • Seasonality • Winter sales are approximately twice summersales • Forecasting • What is the expected sales for the next quarter?
Βασική Προσέγγιση για Σύγκριση Χρονοσειρών Εξαγωγή μερικών χαρακτηριστικών-“κλειδιών” για κάθε χρονική ακολουθία Map each time sequence X to a point f(X) in the(relatively low dimensional) “feature space”, suchthat the (dis) similarity between X and Y isapproximately equal to the Euclidean distancebetween the two points f(X) and f(Y)
Dynamic Time Warping • Εύρεση της βέλτιστης αντιστοίχισης δύο χρονικών σειρών με «τέντωμα» στον άξονα του χρόνου • Για σύγκριση συνεχών σημάτων
Dynamic Time Warping • Εύρεση της βέλτιστης αντιστοίχισης δύο χρονικών σειρών με «τέντωμα» στον άξονα του χρόνου • Για σύγκριση συνεχών σημάτων
Περιορισμοί των Warping Paths • Μονοτονία • Path should not go down or to the left • Συνέχεια • No elements may be skipped in a sequence • Warping Window | i – j | <= w
Υπολογισμός Απόστασης Let D(i, j) refer to the warping distancebetween the subsequences Basic implementation = O(n2) where n is the length ofthe sequences
Basic LCS Idea Για σύγκριση διακριτών σημάτων • X = 3, 2, 5, 7, 4, 8, 10, 7 • Y = 2, 5, 4, 7, 3, 10, 8, 6 • LCS = 2, 5, 7, 10 • Sim(X,Y) = |LCS| • Παρόμοια Τεχνική: Edit Distance • Μειονέκτημα: Δεν εντοπίζει τους διαφορετικούς παράγοντες κλιμάκωσης • Εφαρμογές: • Speech Recognition • Text Pattern Matching
LCS-like measures for time series • Subsequence comparison without scaling • [Yazdani & Ozsoyoglu, 1996] • Subsequence comparison with local scalingand baselines • [Agrawal et. al., 1995 ] • Subsequence comparision with global scalingand baselines • [Das et. al., 1997] • Global scaling and shifting • [Chu and Wong,1999]