1 / 18

Εξόρυξη Γνώσης Από Χρονικά Δεδομένα

Εξόρυξη Γνώσης Από Χρονικά Δεδομένα. Φροντιστήριο Αγγελική Σκούρα ( skoura@ceid.upatras.gr ). Εξόρυξη Χρονικών Δεδομένων. Ανάλυση χρονικών σειρών πρόβλεψη μελλοντικών τιμών καθορισμός παρόμοιων τάσεων στο χρόνο κατηγοριοποίηση συμπεριφοράς ποσοτικοποίηση (μετρική) ομοιότητας.

temple
Download Presentation

Εξόρυξη Γνώσης Από Χρονικά Δεδομένα

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Εξόρυξη Γνώσης Από Χρονικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα (skoura@ceid.upatras.gr)

  2. Εξόρυξη Χρονικών Δεδομένων • Ανάλυση χρονικών σειρών • πρόβλεψη μελλοντικών τιμών • καθορισμός παρόμοιων τάσεων στο χρόνο • κατηγοριοποίηση συμπεριφοράς • ποσοτικοποίηση (μετρική) ομοιότητας

  3. Βάσεις Δεδομένων από Χρονοσειρές • Ορισμός • Μια χρονοσειρά είναι μια ακολουθία πραγματικών αριθμών, που αναπαριστούν τις μετρήσεις μιας πραγματικής μεταβλητής σε ισαπέχοντα χρονικά διαστήματα • Παραδείγματα • Μεταβολή των εργοστασιακών τιμών • Όγκος πωλήσεων ως προς τον χρόνο • Μετρήσεις θερμοκρασίας σε καθημερινή βάση • ΒΔ Χρονοσειρών • Μια βάση δεδομένων με ακολουθίες χρονοσειρών

  4. Χρησιμότητα της Ανάλυσης Χρονοσειρών • Εύρεση προτύπων • Ανάλυση τάσης (Trend analysis) • A company’s linear growth in sales over the years • Εποχικότητα • Winter sales are approximately twice summersales • Πρόβλεψη • What is the expected sales for the next quarter?

  5. Σύγκριση Χρονοσειρών Παράδειγμα σύγκρισης χρονοσειρών Τεχνικές υπολογισμού της απόστασης μεταξύ 2 χρονοσειρών Ευκλείδεια Απόσταση Dynamic Time Warping (DTW) Longest Common SubSequenceΤεχνική (LCSS) Minimal Variance Matching (MVM) Symbolic Aggregate approXimation (SAX)

  6. Ευκλείδεια Απόσταση • Δίνονται οι χρονοσειρές • Α = {1,5,4,3,2,4,5,4,3} • Β = {1,5,2,2,4,2} • Είναι η Ευκλείδεια απόσταση κατάλληλη για τη σύγκριση των δύο αυτών χρονοσειρών?

  7. Τεχνική Dynamic Time Warping • Η μέθοδος Dynamic Time Warping (DTW)είναι μια από τις πιο ικανοποιητικές συναρτήσεις απόστασης μεταξύ δύο χρονοσειρών • The sequences are "warped" non-linearly in the time dimension • Το βασικό χαρακτηριστικό της (το οποίο αποτελεί και το μεγαλύτερο προτέρημά της) είναι η στοίχιση (alignment) των χρονοσειρών πριν μετρηθεί η απόστασή τους • Το βασικότερο μειονέκτημα της μεθόδου είναι το γεγονός ότι στον υπολογισμό της στοίχισης χρησιμοποιούνται όλα τα στοιχεία και των δύο χρονοσειρών • Αν δηλαδή υπάρχουν ακραίες τιμές (outliers) στις χρονοσειρές, τότε συνυπολογίζονται στο αποτέλεσμα

  8. Τεχνική Dynamic Time Warping • Έστω δύο χρονοσειρές για τις οποίες επιθυμούμε να υπολογίσουμε την μεταξύ τους απόσταση χρησιμοποιώντας τη μέθοδο DTW • Αρχικά δημιουργούμε έναν πίνακα αποστάσεων Dμε στοιχεία • Η στοίχιση είναι ένα μονοπάτι (warping path) όπου • Για το W υπάρχουν κάποιοι περιορισμοί: • w1 = (1, 1) και wK = (m, n) • Αν wk = (a, b) και wk-1 = (a’, b’), τότε πρέπει a-a’≤1 και b-b’≤1 • Αν wk = (a, b) και wk-1 = (a’, b’), τότε πρέπει a-a’≥0 και b-b’≥0

  9. Περιορισμοί που πρέπει να ισχύουν για το Warping Path • A warping path is a path through the minimal distance matrix • There are three conditions imposed on the dynamic time warping algorithm that ensures a polynomial time convergence: • Monotony – the path never returns • the path will not turn back on itself, both the i and j indexes either stay the same or increase, they never decrease • Continuity – the path advances gradually step-by-step • the path advances one step at a time. Both i and j can only increase by 1 on each step along the path • Boundary – the path starts in lower left corner and ends in the upper right corner • Αν δούμε ένα μονοπάτι που ξεκινά top right και τερματίζει bottom left είναι λανθασμένο? Επιπλέον προαιρετικός περιορισμός: • Adjustment window condition • a good path is unlikely to wander very far from the diagonal. The distance that the path is allowed to wander is the window length w, that is |i – j| <= w

  10. Τεχνική Dynamic Time Warping Υπάρχουν πολλά μονοπάτια πάνω στον πίνακα Dπου ικανοποιούν τις παραπάνω συνθήκες. Στόχος είναι η εύρεση του βέλτιστου μονοπατιού, αυτού δηλαδή που ελαχιστοποιεί την απόσταση μεταξύ των X, Y: Το μονοπάτι αυτό μπορεί να βρεθεί χρησιμοποιώντας την τεχνική του δυναμικού προγραμματισμού πάνω στον πίνακα D, χρησιμοποιώντας την παρακάτω αναδρομική σχέση: γ(i, j) = Di, j + min {γ(i − 1, j − 1), γ(i − 1, j), γ(i, j − 1)} όπου γ(i, j) = cumulative distance Η απόσταση των δύο ακολουθιών είναι ίση με την ποσότητα W, δηλαδή την Ευκλείδεια Απόσταση μεταξύ των στοιχισμένων ακολουθιών The time and space complexity of DTW = O(n.m) όπου n, mτα μήκη των ακολουθιών

  11. Παράδειγμα DTW X= {1, 5, 4, 2} και Υ ={1, 2, 4, 1} Βήμα 1: Κατασκευάζω τον πίνακα διαφορών D. Βήμα 2: Με τεχνική ΔΥΝΑΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ υπολογίζω τον πίνακα γ, όπου κάθε στοιχείου του γ(i,j) υπολογίζεται με τον ακόλουθο τύπο:

  12. . Παράδειγμα DTW Βήμα 3: Η απόσταση των δύο χρονοσειρών είναι η Ευκλείδεια Απόσταση των στοιχισμένων ακολουθιών απόσταση(Χ, Υ) = Βήμα 4: Το συντομότερο μονοπάτι ξεκινά από το στοιχείο D(1,1), καταλήγει στο D(4,4) και κατά την μετάβαση από το D(1,1) στο D(4,4) επιλέγω κάθε φορά το ελάχιστο γειτονικό κελί του πίνακα γ. Το συντομότερο μονοπάτι φαίνεται με πράσινα βελάκια.

  13. Gif DTW Gif με το τρέξιμο του αλγορίθμου: http://de.wikipedia.org/wiki/Datei:Animation_Dynamic_Time_Warping.gif

  14. Longest Common SubSequence(LCSS) Όπως αναφέραμε, το βασικό μειονέκτημα του DTW είναι η ευαισθησία του σε outliers Η τεχνική LCSS αναζητά τη μέγιστη κοινή υποακολουθία μεταξύ δύο χρονοσειρών Αυτό σημαίνει ότι μπορεί κατά τον υπολογισμό της διαφοράς να μην υπολογίζει στοιχεία και από τις δύο Με αυτόν τον τρόπο επιλύεται το πρόβλημα των outliers Η LCSS υπολογίζει τη διαφορά ως το πηλίκο του μήκους της μέγιστης κοινής υποακολουθίας προς το συνολικό μέγεθος

  15. LCSS Παράδειγμα LCSS Τεχνικής (σύγκριση διακριτών σημάτων) LCSS-like μετρικές για χρονοσειρές • X = 3, 2, 5, 7, 4, 8, 10, 7 • Y = 2, 5, 4, 7, 3, 10, 8, 6 • LCSS = 2, 5, 7, 8 • Similarity (X,Y) = |LCSS| • Παρόμοια Τεχνική: Edit Distance • Μειονέκτημα: Δεν εντοπίζει τους διαφορετικούς παράγοντες κλιμάκωσης • Εφαρμογές: • Speech Recognition • Text Pattern Matching • Subsequence comparison without scaling • [Yazdani & Ozsoyoglu, 1996] • Subsequence comparison with local scalingand baselines • [Agrawal et. al., 1995 ] • Subsequence comparision with global scalingand baselines • [Das et. al., 1997] • Global scaling and shifting • [Chu and Wong,1999]

  16. Minimal Variance Matching (MVM) Η τεχνική MVM κάνει αντιστοίχιση όπως και ο DTW με τη διαφορά ότι επιτρέπει να μην υπολογίζονται στοιχεία από την μία χρονοσειρά Η βασική διαφορά της MVM με την LCSS είναι πως η δεύτερη υπολογίζει τη διαφορά σε σχέση με την μέγιστη κοινή υποσυμβολοσειρά και συνεπώς χρειάζεται κάποιο κατώφλι Χ=( 1, 2, 8, 6, 8) Υ=( 1, 2, 9, 3, 3, 5, 9) The shortest path for the example matrix is marked with boxes Τhe optimal correspondence f is given by f(1) = 1, f(2) = 2, f(3) = 3, f(4) = 6, f(5) = 7 Finally, we obtain the distance Περισσότερες λεπτομέρειες στο paper: http://www.springerlink.com/content/f13252j85441774r/?CFID=105008431&CFTOKEN=57689851

  17. Symbolic Aggregate approXimation (SAX) According to SAX technique… First, the time series is normalized to have a mean of zero and a standard deviation of one Afterwards, the time series is transformed further by applying Piecewise Aggregate Approximation Taking advantage of the fact that the transformed series follows the normal probability distribution, each element is mapped to a symbol using the properties of this distribution The user must assign a value in parameter α which defines the alphabet size (number of symbols to be used) Then, the area under the normal curve is divided into α areas of equal size (meaning that the corresponding probabilities will be equal for each symbol) and each one of them is assigned to a symbol Finally, an element of series which falls into an interval that corresponds to a specific are is mapped to the area’s symbol

  18. Εξόρυξη Γνώσης Από Χρονικά Δεδομένα ΑΠΟΡΙΕΣ?

More Related