580 likes | 695 Views
Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες. Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland. Διάγραμμα. Εισαγωγή Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) Εφαρμογές προσέγγισης τέτοιων δεδομένων Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση Σχετική Έρευνα
E N D
Προσέγγιση Δεδομένων μεΠολλαπλές Μετρήσιμες Ποσότητες Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland
Διάγραμμα • Εισαγωγή • Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) • Εφαρμογές προσέγγισης τέτοιων δεδομένων • Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση • Σχετική Έρευνα • Wavelets (εκτενή περιγραφή) • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Προσέγγιση χρονοσειρών • Συμπεράσματα
Δεδομένα με Πολλαπλές Μετρήσιμες Ποσότητες • Συνήθως τα δεδομένα αποτελούνται από: • Διαστάσεις (dimensions) • Περιγράφουν τις συλλεγόμενες ποσότητες • Μετρήσιμες ποσότητες (measures) • Αριθμητικές τιμές • Δεδομένα Πωλήσεων Προϊόντων • Διαστάσεις: Προϊόν, Πελάτης, Ώρα Πώλησης • Μετρήσιμες ποσότητες: Τιμή αγοράς/πώλησης, κόστη μεταφοράς/αποθήκευσης... • Συλλογή Δικτυακών Μετρήσεων • Διάσταση: Χρόνος Συλλογής • Μετρήσιμες ποσότητες: Εισερχόμενα/εξερχόμενα πακέτα/bits, επιχειρούμενες συνδέσεις...
Ανάγκη Προσέγγισης Δεδομένων • Μέγεθος δεδομένων μπορεί να είναι σε GB/TB • Αργή απόκριση σε ερωτήσεις • Δεν χρειάζεται πάντα 100% ακρίβεια • Εξερευνητικές ερωτήσεις σε συστήματα εξόρυξης δεδομένων • Ερωτήσεις ομαδοποίησης (aggregate queries) σε συστήματα υποστήριξης αποφάσεων(DSS) • Προσέγγιση για λόγους συμπίεσης (εικόνες) • Συμπίεση χρήσιμη και στη μεταφορά δεδομένων (δίκτυα αισθητήρων)
Συστήμα Υποστήριξης Αποφάσεων SQL Ερώτηση Ακριβής Απάντηση “Μετασχηματισμένη” Ερώτηση GB/TB Σύνοψη Δεδομένων Προσεγγιστική Απάντηση KB/MB Προσέγγισης Δεδομένων • Λύση: κατασκευή Συνόψεων Δεδομένων • Μέγεθος σύνοψης << μέγεθος δεδομένων • Γρήγορη απόκριση σε ερωτήσεις • Τύποι Συνόψεων • Ιστογράμματα, Wavelets, Δειγματοληψία, Σχέδια (sketches)
Τι συμβαίνει στο πρόβλημα μας? • Δεδομένα είναι πλειάδες (tuples) με D+M πεδία • D διαστάσεις • M μετρήσιμες ποσότητες • Μόνη εύκολα επεκτάσιμη μέθοδος: Δειγματοληψία • Άλλες τεχνικές περισσότερο αυτόνομες • Κατανομή συνολικού χώρου σύνοψης • Κάθε μετρήσιμη ποσότητα προσεγγίζεται ξεχωριστά • Διαφορετικοί κουβάδες (buckets) για τα ιστογράμματα • Διαφορετικοί συντελεστές (coefficients) για τα wavelets • Λιγότερος χώρος για κάθε μετρήσιμη ποσότητα • Για T πλειάδες, και α% χώρο για σύνοψη • wavelet συντελεστές για κάθε μετρήσιμη ποσότητα
Μπορούμε να κάνουμε κάτι καλύτερο? • Έξυπνη κατανομή χώρου • Διαφορετική δυσκολία προσέγγισης κάθε μετρήσιμης ποσότητας • Εκμετάλλευση συσχετίσεων (correlation) μεταξύ ποσοτήτων • Ολικών ή σε ορισμένες περιοχές των δεδομένων • Εκμετάλλευση εξαρτήσεων στην αποθήκευση των συνόψεων • Πχ, κοινές συντεταγμένες συντελεστών στα wavelets
Διάγραμμα • Εισαγωγή • Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) • Εφαρμογές προσέγγισης τέτοιων δεδομένων • Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση • Σχετική Έρευνα • Wavelets κατασκευή • Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Προσέγγιση χρονοσειρών • Συμπεράσματα
Wavelets • Ιεραρχική ανάλυση συναρτήσεων/σημάτων • Εφαρμογές σε: • Επεξεργασία Εικόνων και Σημάτων (WALRUS: [NRS99]) • Εκτίμηση Επιλεκτικότητας (selectivity estimation) [MVW98] • Ερωτήσεις Άθροισης Περιοχών (Range-Sum)σε κύβους δεδομένων [VWI98, VW99] • Προσεγγιστική Επεξεργασία Ερωτήσεων [CGRS00]
Wavelets (συν.) • Διεργασία 2 βημάτων • Ανάλυση δεδομένων και παραγωγή wavelet συντελεστών • Επιλογή συντελεστών για αποθήκευση • Συντελεστές σώζονται ως πλειάδες με D+1 πεδία • D συντεταγμένες (1 για κάθε διάσταση) • “Κανονικοποιημένη” τιμή συντελεστή • Συνήθης στόχος: Ελαχιστοποίηση μέσου τετραγωνικού σφάλματος • Πιθανοτικές Wavelet Συνόψεις με Εγγυήσεις Σφάλματος [GG02]
[4] [1] [5, ] [5, 3] [-3, ] [-3, 0] ΣυντεταγμένηΤιμή 0 4 1 1 2 -3 3 0 Α. Ανάλυση με Haar Wavelets • Wavelets:Ιεραρχική ανάλυση συναρτήσεων • Haar wavelets:απλούστερη βάση των wavelets • Αναδρομικός υπολογισμός μέσου όρου και μέσης διαφοράς μεταξύ ζευγών από τιμές Ανάλυση Μέσοι Όροι Συντελεστές 0 1 2 [2, 8, 3, 3] ----
4 4 1 4 1 + -3 - 1 -3 0 [4] [1] + - -3 0 + - 2 8 3 3 Data 13 = 3*4 +1*(2-1) 8 = 4 + 1 – (-3) Ανάλυση Μέσοι Όροι Συντελεστές 0 [5, 3] 1 [-3, 0] 2 [2, 8, 3, 3] ---- Haar Wavelet Συντελεστές • Απεικόνιση στο Δέντρο Σφάλματος (Error Tree) • Συντελεστές συντελούν στην εκτίμηση 2level δεδομένων • Ερωτήσεις Σημείων (point queries): • Συντελεστές σε μονοπάτι προς δεδομένο • Ερωτήσεις Εύρους (range queries): • Συντελεστές σε μονοπάτι προς κάτω και άνω όρια του εύρους
Ψευδοκώδικας Ανάλυσης // Οι δείκτες start, end ορίζουν περιοχή με μέγεθος δύναμη του 2 Decompose(A, start, end) { // επιστρέφει το μέσο όρο της περιοχής if (end-start > 1) { // Αναδρομή σε 2 υποπεριοχές Avg1 = Decompose(A, start, (start+end)/2) Avg2 = Decompose(A, (start+end)/2 + 1, end) } else { Avg1 = A[start]; Αvg2 = A[end]; } πρόσθεσε το συντελεστή με τιμή: (Avg1 – Avg2) / 2; return (Avg1 + Avg2) / 2 }
Πολλαπλές Διαστάσεις • Ανάλυση επεκτείνεται εύκολα σε πολλαπλές διαστάσεις • Σύνολο τιμών είναι το ND (αντί για Ν σε 1-D) • N: μέγιστο πεδίο τιμών σε οποιαδήποτε διάσταση • Επεξεργασία περιοχών μεγέθους δύναμης του 2D (αντί για 2) • Αναδρομή σε 2D υποπεριοχές • Οι 2Dτιμές/μέσοι όροι περιοχών παράγουν: • 1 μέσο όρο της περιοχής • 2D-1 συντελεστές (αντί για 2-1 = 1) • Πολλές υποπεριοχές είναι κενές (αραιά δεδομένα) • Δεν χρειάζεται αναδρομή σε αυτές • Δεδομένα χρειάζονται ταξινόμηση με βάση σειρά “επεξεργασίας” των δεδομένων
+ - + - + - + - + - - - - + + + + + + + + - - - - + + + + - - - - - - - - + + + + Δέντρο Σφάλματος • Κάθε κόμβος έχει 2Dπαιδιά • Κάθε κόμβος περιέχει μέχρι 2D-1 συντελεστές
Β. Επιλογή Συντελεστών για Αποθήκευση • Επιλογή εξαρτάται από σφάλμα για ελαχιστοποίηση • Ελαχιστοποίηση συνολικού τετραγωνικού (L2) σφάλματος • Κανονικοποίηση • Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών • Αποδεδειγμένα βέλτιστη λύση
Ελαχιστοποίηση Μέγιστου Σχετικού Σφάλματος • L2 σφάλμα ακατάλληλο για συστήματα αποφάσεων • Πόσο ακριβής είναι η απάντηση που παίρνω? • Ελαχιστοποίηση μέγιστου σχετικού σφάλματος: • di: πραγματική τιμή δεδομένου i • di: εκτιμούμενη τιμή δεδομένου i • s: λογικό όριο • Καμία γνωστή αποδοτική λύση ^
Πιθανοτικές Συνόψεις [GG02] • Προσπάθεια αντιμετώπισης του προβλήματος • Πιθανότητα 0yi1επιλογής κάθε μη-μηδενικού συντελεστή ci • Συντελεστής γίνεται τυχαία μεταβλητή: • E[Ci] = yi ci/yi + (1-yi) 0 = ci (αμερόληπτος εκτιμητής) • Var(i,yi) = Var[Ci] = ci2 (1-yi)/yi
4 4 1 1 -3 - + -3 0 - + + - 2 8 3 3 Data 8 = 4 + 1 – (-3) Πιθανοτικές Συνόψεις (συν.) • Κάθε δεδομένο είναι γραμμικός συνδυασμός συντελεστών • Αναμενόμενη τιμή = πραγματική • Στόχος: Δεδομένου ενός ορίου αποθήκευσης Β, βρες τα yi, ώστε να ελαχιστοποιείται το:
4 1 - + -3 0 - + + - 2 8 3 3 Data Πιθανοτικές Συνόψεις (συν.) • Στη βέλτιστη λύση: • maxNSE μέσω δεξιού και αριστερού υποδέντρου είναι ίσα • Σε κάθε υποδέντρο, το max NSE συμβαίνει για τη μικρότερη τιμή • Λύση δυναμικού προγραμματισμού • Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου • yi: στον τρέχον κόμβο • bL: στο αριστερό υπόδεντρο • Β-bL-yi: στο δεξί υπόδεντρο • Αναθέσεις χώρου πολ/σια 1/q (q 10)
Πιθανοτικές Συνόψεις (συν.) • Πολυπλοκότητες (1-D)για μέγεθος πεδίου τιμών N, χώρο B: • O(NqB) χώρο • Ο(Nq2Blog(qB)) χρόνο • O(qBlogN) ελάχιστη μνήμη • Πολυπλοκότητες (πολυδιάστατα δεδομένα)για Nz κόμβους του δέντρου σφάλματος με μη μηδενικούς συντελεστές, χώρο B: • O(2DNzqB) χώρο • Ο(2DNzqB(qlog(qB)+D2D)) χρόνο • O(2DqBlogN) ελάχιστη μνήμη • Για B=Θ(Ν), πολυπλόκοτητες τουλάχιστον τετραγωνικές στο Ν
Διάγραμμα • Εισαγωγή • Σχετική Έρευνα • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Δεδομένα με πολλαπλές μετρήσιμες ποσότητες • Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος • Βέλτιστοι και greedy αλγόριθμοι • Προσέγγιση χρονοσειρών • Συμπεράσματα
Α. Μέσο τετραγωνικό σφάλμα (1 ποσότητα) • Ελαχιστοποίση συνολικού τετραγωνικού (L2) σφάλματος • Κανονικοποίηση • Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών • Αποδεδειγμένα βέλτιστη λύση • Μέσο τετραγωνικό σφάλμα = άθροισμα τετραγώνου των συντελεστών που δεν επιλέγονται • Συντελεστές σώζονται ως πλειάδες με D+1 πεδία • D συντεταγμένες (1 για κάθε διάσταση) • “Κανονικοποιημένη” τιμή συντελεστή
Α. Μέσο τετραγωνικό σφάλμα (πολλές ποσότητες) • Δύο υπάρχουσες τεχνικές: • Ανεξάρτητημέθοδος • Ξεχωριστή ανάλυση για κάθε ποσότητα • Συνδυασμένημέθοδος • Αντιμετωπίζει τις ποσότητες σαν πίνακες τιμών • Κρατάει τους πίνακες με τις B μεγαλύτερες L2 νόρμες
Μειωμένη Εκμετάλλευση Χώρου από τις 2 μεθόδους Μειονεκτήματα Υπάρχουσων Τεχνικών • Ακραίες υποθέσεις αποθήκευσης συντελεστών • Για κάθε συνδυασμό συντεταγμάνων • Ανεξάρτητη μέθοδος αποθηκεύει μόνο ΜΙΑ τιμή συντελεστή (μίας ποσότητας) • Κάποιες συντεταγμένες συντελεστών μπορεί να αποθηκευθούν πολλές φορές • Συνδυασμένημέθοδος αποθηκεύει ΟΛΕΣ τις τιμές (για όλες τις ποσότητες) • Μπορεί να αποθηκεύσει “μη χρήσιμες” τιμές
101 1 2 0 100 5 917 Bitmap Συντεταγμένες Τιμές Συντελεστών Ο Στόχος μας • Προσαρμοζόμενη μέθοδος αποθήκευσης • Χωρίς προβλήματα Ανεξάρτητης/Συνδυασμένηςμεθόδων • Βελτίωση εκμετάλλευσης χώρου • Δίκαιη κατανομή χώρου στις ποσότητες • Ιδέα: • Αποθήκευσε 1 ως M τιμές συντελεστών • Ένα bitmap μπορεί να δείξει • Πόσες τιμές συντελεστών έχουν αποθηκευτεί • Ποιες τιμές συντελεστών έχουν αποθηκευτεί
Επεκταμένοι Wavelet Συντελεστές • Ο Επεκταμένος Wavelet Συντελεστής είναι μία τριάδα <C, β, V> • Συντεταγμένες συντελεστή C • Bitmap β • Αποθηκευμένες τιμές συντελεστή V • Ποιές τιμές συντελεστών να αποθηκεύσουμε δεδομένου ενός ορίου αποθήκευσης B ?
Ορισμός Προβλήματος • Για ένα D-διάστατο σύνολο δεδομένων με M ποσότητες • Δεδομένου: • Σύνολο βαρών για κάθε ποσότητα • Σύνολο N αρχικούς Συνδυασμένους συντελεστές • Όριο αποθήκευσης B • Ελαχιστοποίησε το σταθμισμένο άθροισμα των τετραγωνικών σφαλμάτων για όλες τις ποσότητες • Οι αλγόριθμοί μας εφαρμόζονται στο τελικό στάδιο επιλογής συντελεστών • Καμία δέσμευση στον αλγόριθμο ανάλυσης
001 101 1 1 2 2 0 0 100 100 5 5 917 917 Bitmap Bitmap Συντεταγμένες Συντεταγμένες Τιμές Συντελεστών Τιμές Συντελεστών Παρατηρήσεις για Λύση • Πρόβλημα παρόμοιο με το Knapsack Πρόβλημα • Όριο αποθήκευσης B • Κάθε τιμή συντελεστή έχει: • Σταθμισμένο όφελος = σταθμισμένο τετράγωνο τιμής • Απαιτούμενο χώρο • Πρόβλημα: Μεταβλητός χώρος για τιμές συντελεστή: • Για κάθε συντελεστή, η πρώτη αποθηκευμένη τιμή συντελεστή χρειάζεται και χώρο για την “κεφαλή” του επεκταμένου συντελεστή (bitmap + συντεταγμένες) • Δεν συμβαίνει το ίδιο για τις υπόλοιπες τιμές του συντελεστή αυτού
Προτεινόμενες Λύσεις • Αλγόριθμος Δυναμικού Προγραμματισμού • Χώρος: O(NMB), φραγμένο από O(N2M(D+M)) • Χρόνος: O(NMB), φραγμένο από O(N2M(D+M)) • Greedy Αλγόριθμος (GreedyL2) • Επιλογή set τιμών για αποθήκευση με μέγιστο όφελος/χώρο • Χώρος: O(N(D+M)) : όμοια με μέγεθος εισόδου(input) • Χρόνος: O((N+Β)Mlog(NM)), φραγμένο από O(NM2log(NM)) • Αποδεδειγμένο κλάσμα προσέγγισης 2 • Στα πειράματα, το κλάσμα των οφελών ήταν μεγαλύτερο του 99.99%
Μέσο Σταθμισμένο Τετραγωνικό Σφάλμα vs. Μέγεθος Σύνοψης • 2-διάστατα συνθετικα δεδομένα. • 6 Zipfian κατανομές • Διαφορετικά κέντρα, μορφές • Πυκνές περιοχές • 5-10% δεδομένων σε αραιές περιοχές • Τυχαίες ερωτήσεις εύρους, έμφαση σε πυκνές περιοχές • Σφάλματα μέχρι 29% κοντινότερου αντιπάλου
Μέσα Σταθμισμένα Σφάλματα vs. Μέγεθος • Σφάλματα μέχρι 65% και 69% κοντινότερου αντιπάλου
Ευαισθησία στην Απόκλιση (Skew) • Οφέλη αυξάνουν για μέτρια προς μεγάλες αποκλίσεις δεδομένων • Μέχρι 3 φορές μικρότερα λάθη από τον κοντινότερο ανταγωνιστή
4 1 - + -3 0 - + + - 2 8 3 3 Data B. Μέγιστο Σχετικό Σφάλμα (1 ποσότητα) • Πιθανότητα yi επιλογής συντελεστή ci • Eλαχιστοποίηση του: • Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου • yi: στον τρέχον κόμβο • bL: στο αριστερό υπόδεντρο • Β-bL-yi: στο δεξί υπόδεντρο • Συνδυασμός λύσης με λύσεις υποδέντρων
Μέγιστο Σχετικό Σφάλμα (πολλές ποσότητες) • Στόχοι: • Ελαχιστοποίση μέγιστου σχετικού σφάλματος σε όλες τις ποσότητες • Χρήση επεκταμένων συντελεστών για καλύτερη ακρίβεια • Αλγόριθμοι πρακτικοί • Χώρος • Χρόνος • Greedy αλγόριθμός μας πολύ πιο αποδοτικός και για 1-Μ περίπτωση
Χρήση Επεκταμένων Συντελεστών • Περίπλοκη εξάρτηση χώρου • Βέλτιστη λύση: ανάθεση χώρου Bi < B σε κάθε υποδέντρο: • Κράτα σύνολομη συγκρίσιμων διανυσμάτων R[i,Bi] • Η j συντεταγμένη είναι max NSE στο υποδέντρο του κόμβου i για την ποσότητα j, όταν αναθέτουμε χώρο Bi • Αποτυγχάνειη αρχή της βελτιστοποίησης αλγορίθμων Δ.Π. • Δεν μπορείς να κρατήσεις το διάνυσμα του R[i,Bi] με την ελάχιστη max τιμή
Βέλτιστος Αλγόριθμος • Αλγόριθμος βασίζεται σε “μερική ταξινόμηση” λύσεων • Απορίπτει μερικές λύσεις που δεν μπορεί να συμβάλουν στη βέλτιστη ολική λύση • Πολυπλοκότητα χώρου/χρόνου απαγορευτική
Greedy Αλγόριθμος: Σκέψεις • Αρχικοποίησε ολές τις πιθανότητες επιλογής (ΠΕ) σε 0 • Σε κάθε βήμα αύξησε ΠΕ ορισμένων τιμών συντελεστών • Έχει νόημα να αυξήσουμε ΠΕ από ποσότητα που δεν έχει το max{max NSE} ? • 1 ή πολλές ΠΕ μαζί? • Πώς διαλέγουμε ποιές τιμές να επιλέξουμε στο βήμα αυτό? • Σκοπός: Σε κάθε βήμα αύξησε την πιθανότητα επιλογής ενός SET τιμών συντελεστών • Συντελεστές από ποσότητα με max {max NSE} • Μεγιστοποίησε μείωση του max NSE / χώρος(SET)
Greedy Αλγόριθμος: • 3 στάδια αλγορίθμου : • Κάθε κόμβος (για κάθε ποσότητα) εκτιμάει το max NSE δεδομένων κάτω από αυτόν • Κάθε κόμβος (για κάθε ποσότητα) υπολογίζει το SET τιμών στο υποδέντρο του με τη μέγιστη μείωση του max NSE/χώρος(SET) • Αύξηση πιθανότητας επιλογής των τιμών στο SET της ποσότητας με το max {max NSE}
Var(i,yi) = [0,2] i 2i+1 2i G = [15,20] G = [18,19] Στάδιο 1: Εκτίμηση max NSE στο υπόδεντρο • Υπολογισμός σαν να είμασταν στη βέλτιστη λύση στην τρέχουσα ανάθεση πιθανοτήτων επιλογής • Υπολογισμός από κάτω προς τα πάνω Σωστό μόνο στη βέλτιστη λύση
Στάδιο 2: Υπολογισμός Υποψηφίων SET • Επιλογή Set(i,j): • cij • cij Set(k,j), k is index of subtree that determines P[i,j] • Set(2i,j) Set(2i+1,j) • Χώρος για αύξηση πιθανότητας επιλογής δyij: • Επιλογή λύσης με καλύτερο λόγο μείωσης P[i,j]/χώρου
Στάδιο 3: Αύξηση Πιθανοτήτων Επιλογής • Διάσχιση από πάνω προς τα κάτω • Αν επιλογή Set(i,j): • cij, αύξησε πιθανότητα επιλογής του συντελεστή • cij Set(k,j), αύξησε πιθανότητα επιλογής του συντελεστή και προχώρησε στο σωστό υποδέντρο • Set(2i,j) Set(2i+1,j), προχώρησε στα 2 υποδέντρα • Πολυπλοκότητες χαμηλές: • Χώρος: Ο(ΝzΜ) • Χρόνος: O((ΝzΜ + BMqlogN)D2D)
Διάγραμμα • Εισαγωγή • Σχετική Έρευνα • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Προσέγγιση χρονοσειρών • Γραμμικές Συσχετίσεις • Προσέγγιση μέσω λεξικού • Κατασκευή λεξικού • Συμπεράσματα
Ορισμός Προβλήματος • Εμπνευσμένο από δίκτυα αισθητήρων • Κόμβοι παρατηρούν πολλαπλές ποσότητες • Απλή εφαρμογή σε προσέγγιση πολλαπλών χρονοσειρών • Χρειάζεται να εκπέμψω NxM τιμές δεδομένων • N παρατηρούμενες ποσότητεςμε M τιμές η κάθε μία • Θέλω να καταναλώσω bandwidth (=συνολικές λέξεις που εκπέμπω) B << NxM • Εδώ χρειάζεται η προσέγγιση • Ελαχιστοποίση ορισμένου μέτρου σφάλματος της συμπιεσμένης μορφής
Λογική της Λύσης μας • Πολλές συλλεγμένες τιμές μπορεί να είναι συσχετισμένες • Συσχετίσεις μεταξύ διαφορετικών ποσοτήτων • Πχ: πίεση και υγρασία • Συσχετίσεις μεταξύ τιμών της ίδιας ποσότητας • Πχ: περιοδικότητα, παρόμοιες τάσεις • Πώς να εκμεταλλευτούμε τις συσχετίσεις?
Παράδειγμα Συσχετισμένων Δεδομένων
Κύρια Ιδέα • Δημιούργησε ένα λεξικό με χαρακτηριστικά των δεδομένων (κύριο σήμα) • Χώρισε δεδομένα σε διαστήματα • Μεταβλητός αριθμός/μήκος διαστημάτων ανά ποσότητα • Κωδικοποίησε κάθε διάστημα μέσω του λεξικού • Χρησιμοποίησε γραμμική παλινδρόμηση για την κωδικοποίηση
Total Size = B Σκίτσο της Τεχνικής μας