1 / 33

Προεπεξεργασία Δεδομένων

Προεπεξεργασία Δεδομένων. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 1 ο Φροντιστήριο. Αντωνέλλης Παναγιώτης antonel@ceid.upatras.gr Σκούρα Αγγελική skoura@ceid.upatras.gr. Σκοπός της προεπεξεργασίας. Τα δεδομένα γενικά χαρακτηρίζονται ως ακάθαρτα

Download Presentation

Προεπεξεργασία Δεδομένων

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Προεπεξεργασία Δεδομένων Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 1ο Φροντιστήριο Αντωνέλλης Παναγιώτης antonel@ceid.upatras.gr Σκούρα Αγγελική skoura@ceid.upatras.gr

  2. Σκοπός της προεπεξεργασίας • Τα δεδομένα γενικά χαρακτηρίζονται ως ακάθαρτα • Δεν είναι ολοκληρωμένα: λείπουν τιμές χαρακτηριστικών, λείπουν σημαντικά χαρακτηριστικά ή περιέχουν συναθροιστικά δεδομένα • Περιέχουν «θόρυβο»: περιέχουν σφάλματα ή outliers • Είναι αντιφατικά: περιέχουν ασυμφωνίες σε κώδικες ή ονόματα • Τα δεδομένα είναι κακής ποιότητας • Για να έχουμε ποιοτικά αποτελέσματα από την εξόρυξη γνώσης χρειαζόμαστε ποιοτικά δεδομένα • Οι αποθήκες δεδομένων έχουν ανάγκη από συνεπή ενοποίηση ποιοτικών δεδομένων

  3. Βήματα προεπεξεργασίας • Καθαρισμός δεδομένων (Data cleaning) • Συμπλήρωση των χαμένων τιμών, εξομάλυνση δεδομένων με θόρυβο, αναγνώριση ή απομάκρυνση των outliers, διόρθωση ασυνεπειών στα δεδομένα • Ενοποίηση δεδομένων (Data integration) • Ενοποίηση πολλαπλών βάσεων δεδομένων • Μετασχηματισμός δεδομένων (Data transformation) • Κανονικοποίηση και συνάθροιση δεδομένων • Μείωση δεδομένων (Data reduction) • Διατηρούνται μειωμένες αναπαραστάσεις δεδομένων σε χωρητικότητα αλλά δημιουργούνται ίδια ή παρόμοια αποτελέσματα ανάλυσης, Μείωση διαστατικότητας • Διακριτοποίηση δεδομένων (Data discretization) • Μέρος της μείωσης δεδομένων αλλά με ιδιαίτερη σημαντικότητα, ειδικά για numerical data

  4. Βήματα προεπεξεργασίας • Καθαρισμός δεδομένων (Data cleaning) • Συμπλήρωση των missing data, εξομάλυνση δεδομένων με θόρυβο, αναγνώριση ή απομάκρυνση από outliers, και επίλυση ασυνεπειών στα δεδομένα • Ενοποίηση δεδομένων (Data integration) • Ενοποίηση πολλαπλών βάσεων δεδομένων • Μετασχηματισμός δεδομένων (Data transformation) • Κανονικοποίηση και συνάθροιση δεδομένων • Μείωση δεδομένων (Data reduction) • Διατηρούνται μειωμένες αναπαραστάσεις δεδομένων σε χωρητικότητα αλλά δημιουργούνται ίδια ή παρόμοια αποτελέσματα ανάλυσης • Διακριτοποίηση δεδομένων (Data discretization) • Μέρος της μείωσης δεδομένων αλλά με ιδιαίτερη σημαντικότητα, ειδικά για numerical data

  5. Καθαρισμός δεδομένων (Data cleaning) • Εργασίες στο καθαρισμό δεδομένων • Άμεση κτήσηδεδομένων (data acquisition) και μεταδεδομένων • Συμπλήρωση των χαμένων τιμών • Μετατροπή των nominal τιμών σε numerical • Αναγνώριση των outliers και εξομάλυνση δεδομένων με θόρυβο • Διόρθωση ασυνεπειών στα δεδομένα • Απαλοιφή πλεονασμού

  6. Acquisition (απόκτηση) • Τα δεδομένα μπορούν να είναι σε DBMS • OpenDBConnectivity ODBC (Ο στόχος τηςείναι η πρόσβαση σε οποιαδήποτε δεδομένα από κάθε εφαρμογή, ανεξάρτητα από ποια database management systems (DBMS) βρίσκονται τα δεδομένα) . Η ODBC το επιτυγχάνει εισάγοντας ένα ενδιάμεσο layer, το οποίο ονομάζεται database driver, μεταξύ της εφαρμογής και των DBMS). • JavaDBC JDBC (Είναι ένα Java API το οποίο επιτρέπει στoυς προγραμματιστές JAVA να αποκτούν πρόσβαση σε σχεσιακές DBs) • Δεδομένα σε ένα flat file • Fixed-column μορφή • Delimited format: tab, comma “,” • π.χ. το Wekaχρησιμοποιεί comma-delimited δεδομένα • Μετατροπή των χαρακτήρων αρχής/τέλους μέσα στις συμβολοσειρές • Εξακρίβωση του αριθμού των πεδίων πριν και μετά

  7. Μετα-δεδομένα (Metadata) • Τύποι πεδίων: • binary, numeric,nominal (categorical),ordinal, … • Ρόλοι πεδίων: • input : inputs for modeling • target : output • id/auxiliary : keep, but not use for modeling • ignore : don’t use for modeling • weight : instance weight • Περιγραφή πεδίων

  8. Μεταβλητές

  9. Missing Data • Τα δεδομένα δεν είναι πάντα διαθέσιμα • π.χ.πολλές πλειάδες δεν έχουν τιμές για κάποια χαρακτηριστικά, όπως το εισόδημα του πελάτη στα δεδομένα πωλήσεων • Τα missing data μπορούν να οφείλονται: • Βλάβη εξοπλισμού • Ασυμβατότητα με άλλα δεδομένα οπότε και διαγράφονται • Δεδομένα που δεν συμπληρώθηκαν ποτέ λόγω κακής συνεννόησης • Δεδομένα που δεν ήταν σημαντικό να αποθηκευθούν • Δεν υπάρχει ιστορικό των δεδομένων • Τα missing data μπορεί να πρέπει να εξαχθούν από συμπεράσματα

  10. Πως χειριζόμαστε τα missing data • Παραβλέπουμε πλειάδες: συνήθως όταν λείπει το class label (π.χ. το classification δεν είναι αποτελεσματικό όταν το ποσοστό των missing values ανά χαρακτηριστικό διαφοροποιείται σημαντικά) • Συμπλήρωση των missing data manually • Χρησιμοποίηση γενικών σταθερών για τη συμπλήρωση των missing data: π.χ., “unknown”

  11. Μετατροπή των nominal τιμών σε numerical • Μερικά εργαλεία μπορούν να χειριστούν nominal τιμές εσωτερικά • Άλλες μέθοδοι (regression, nearest neighbor) απαιτούν μόνο numeric τιμές • Για να χρησιμοποιήσουμε nominal πεδία σε τέτοιες μεθόδους πρέπει να τις μετατρέψουμε σε numeric τιμές • Δεν αγνοούμε τα nominal πεδία γιατί συχνά περιέχουν σημαντική πληροφορία

  12. Δεδομένα με θόρυβο (Noisy Data) • Θόρυβος: τυχαίο σφάλμα ή ασυμφωνία σε μετρημένες μεταβλητές • Λάθος τιμές χαρακτηριστικών μπορεί να οφείλονται σε: • λάθη στον τρόπο συλλογής δεδομένων • λάθη στην εισαγωγή δεδομένων • προβλήματα στη μετάδοση δεδομένων • περιορισμούς στην τεχνολογία • inconsistency in naming convention • Άλλα προβλήματα για τα οποία χρειάζεται καθαρισμός των δεδομένων: • διπλές εγγραφές • ημιτελή δεδομένα • ασυνεπή δεδομένα

  13. Πως χειριζόμαστε τα δεδομένα με θόρυβο • Συνδυασμός υπολογιστικής και ανθρώπινης παρατήρησης • Αναγνώριση ύποπτων τιμών και έλεγχος τους • Binning method: • Αρχικά ταξινόμηση δεδομένων και διαχωρισμός τους σε (equi-depth) bins • Smooth by bin means, smooth by bin median, smooth by bin boundaries, etc. • Clustering (Συσταδοποίηση) • Βρίσκει και απομακρύνει τα outliers • Regression (Απόκλιση) • Εξομάλυνση των δεδομένων με χρήση των regression functions

  14. Binning method Sorted data for temperature (in C): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition into (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

  15. Clustering

  16. Linear Regression

  17. Βήματα προεπεξεργασίας • Καθαρισμός δεδομένων (Data cleaning) • Συμπλήρωση των missing data, εξομάλυνση δεδομένων με θόρυβο, αναγνώριση ή απομάκρυνση από outliers, και επίλυση ασυνεπειών στα δεδομένα • Ενοποίηση δεδομένων (Data integration) • Ενοποίηση πολλαπλών βάσεων δεδομένων • Μετασχηματισμός δεδομένων (Data transformation) • Κανονικοποίηση και συνάθροιση δεδομένων • Μείωση δεδομένων (Data reduction) • Διατηρούνται μειωμένες αναπαραστάσεις δεδομένων σε χωρητικότητα αλλά δημιουργούνται ίδια ή παρόμοια αποτελέσματα ανάλυσης • Διακριτοποίηση δεδομένων (Data discretization) • Μέρος της μείωσης δεδομένων αλλά με ιδιαίτερη σημαντικότητα, ειδικά για numerical data

  18. Ενοποίηση δεδομένων (Data integration) • Ενοποίηση δεδομένων (Data integration) • Ενώνει δεδομένα από πολλαπλές πηγές • Ενοποίηση σχήματος (Schema integration) • Ενοποίηση μετα-δεδομένων από διαφορετικές πηγές • Ανίχνευση και επίλυση συγκρούσεων σε τιμές δεδομένων • Για την ίδια οντότητα οι τιμές από διαφορετικές πηγές είναι διαφορετικές

  19. Χρήση των Redundant Data • Τα redundant data υπάρχουν συχνά στην ενοποίηση πολλαπλών βάσεων δεδομένων • Το ίδιο χαρακτηριστικό μπορεί να έχει διαφορετικό όνομα σε διαφορετικές βάσεις δεδομένων • Ένα χαρακτηριστικό μπορεί να συνεπάγεται από ένα άλλο • Πλεονάζοντα δεδομένα μπορούν να βρεθούν με προσεκτική ανάλυση συσχετίσεων (correlation analysis) • Προσεκτική ενοποίηση δεδομένων από πολλαπλές πηγές μπορεί να βοηθήσει στη μείωση των πλεοναζόντων δεδομένων

  20. Βήματα προεπεξεργασίας • Καθαρισμός δεδομένων (Data cleaning) • Συμπλήρωση των missing data, εξομάλυνση δεδομένων με θόρυβο, αναγνώριση ή απομάκρυνση από outliers, και επίλυση ασυνεπειών στα δεδομένα • Ενοποίηση δεδομένων (Data integration) • Ενοποίηση πολλαπλών βάσεων δεδομένων • Μετασχηματισμός δεδομένων (Data transformation) • Κανονικοποίηση και συνάθροιση δεδομένων • Μείωση δεδομένων (Data reduction) • Διατηρούνται μειωμένες αναπαραστάσεις δεδομένων σε χωρητικότητα αλλά δημιουργούνται ίδια ή παρόμοια αποτελέσματα ανάλυσης • Διακριτοποίηση δεδομένων (Data discretization) • Μέρος της μείωσης δεδομένων αλλά με ιδιαίτερη σημαντικότητα, ειδικά για numerical data

  21. Μετασχηματισμός δεδομένων (Data transformation) • Smoothing • απομάκρυνση θορύβου από τα δεδομένα • Aggregation • συνάθροιση, data cube construction • Generalization • concept hierarchy climbing • Normalization • scaled to fall within a small, specified range • min-max normalization • z-score normalization • normalization by decimal scaling • Δημιουργία νέων χαρακτηριστικών • Χρησιμοποιούνται για να βελτιώσουν τη διαδικασία εξόρυξης γνώσης

  22. Normalization Techniques • Σκοπός της κανονικοποίησης: η αντιστοίχιση των τιμών των δεδομένων από το διάστημα [minA, maxA] [new_minA, new_maxA] • Min-max normalization: • Επίσης, υπάρχουν παραλλαγές της min max κανονικοποίησης ώστε το διάστημα [new_min, new_max]να μην είναι κατ’ ανάγκη το [0,1] • Decimal scaling: (όταν τα δεδομένα προέρχονται από πηγές που διαφέρουν με λογαριθμικό παράγοντα). Παράδειγμαμια πηγή έχει εύρος τιμών [0,1] και μια άλλη πηγή έχει εύρος τιμών [0, 1000]. Σε αυτήν χρησιμοποιείται η τεχνική Decimal scaling.

  23. Normalization:Παράδειγμα • Θεωρούμε τα δεδομένα από 30-50 και έστω ότι θέλουμε να τα μετασχηματίσουμε ώστε να κυμαίνονται από 0-1. • Θα χρησιμοποιήσουμε Min-max normalization • Το στοιχείο 30 αντιστοιχίζεται ως εξής: • s’ = (30-30)/(50-30) = 0 • Το στοιχείο 50 αντιστοιχίζεται ως εξής: • s’ = (50-30)/(50-30) = 1 • Το ενδιάμεσο στοιχείο 35 αντιστοιχίζεται ως εξής: • s’ = (35-30)/(50-30) = 5/20 = 0.25

  24. Βήματα προεπεξεργασίας • Καθαρισμός δεδομένων (Data cleaning) • Συμπλήρωση των missing data, εξομάλυνση δεδομένων με θόρυβο, αναγνώριση ή απομάκρυνση από outliers, και επίλυση ασυνεπειών στα δεδομένα • Ενοποίηση δεδομένων (Data integration) • Ενοποίηση πολλαπλών βάσεων δεδομένων • Μετασχηματισμός δεδομένων (Data transformation) • Κανονικοποίηση και συνάθροιση δεδομένων • Μείωση δεδομένων (Data reduction) • Διατηρούνται μειωμένες αναπαραστάσεις δεδομένων σε χωρητικότητα αλλά δημιουργούνται ίδια ή παρόμοια αποτελέσματα ανάλυσης • Διακριτοποίηση δεδομένων (Data discretization) • Μέρος της μείωσης δεδομένων αλλά με ιδιαίτερη σημαντικότητα, ειδικά για numerical data

  25. Μείωση δεδομένων (Data reduction) • Πρόβλημα: • Μεγάλες αποθήκες δεδομένων μπορούν να έχουν terabytes δεδομένων, • Πολύπλοκη ανάλυση δεδομένων και εξόρυξη γνώσης μπορεί να απαιτήσει πολύ χρόνο • Λύση: • Μείωση δεδομένων (Διατηρούνται μειωμένες αναπαραστάσεις δεδομένων σε χωρητικότητα αλλά πρέπει να διατηρούνται ίδια ή παρόμοια αποτελέσματα ανάλυσης) • Στρατηγικές: • Data cube aggregation • Dimension Reduction • Instance Selection • Value Discretization • Συμπίεση δεδομένων • Numerosityreduction

  26. Data Cube Aggregation • Το χαμηλότερο επίπεδο ενός data cube • Τα συναθροισμένα δεδομένα για μια ξεχωριστή οντότητα ενδιαφέροντος • Πολλαπλά επίπεδα συνάθροισης σε data cubes • Επιπλέον μείωση του μεγέθους των δεδομένων που θα χρησιμοποιηθούν • Αναφορά σε κατάλληλα επίπεδα • Χρησιμοποιούμε την λιγότερη δυνατή πληροφορία για την επίλυση του προβλήματος μας

  27. Μείωση διαστάσεων • Μπορεί να επιτευχθεί με δύο μεθόδους: • Επιλογή χαρακτηριστικών: Επιλογή ενός ελάχιστου πλήθους (m) χαρακτηριστικών με τα οποία είναι δυνατή η εξαγωγή ισοδύναμων ή κοντινών αποτελεσμάτων με αυτά που θα είχαμε αν είχαμε κρατήσει όλα τα χαρακτηριστικά για ανάλυση (n). Ιδανικά m <<< n. • Μετασχηματισμός χαρακτηριστικών:Είναι γνωστός ως Principle Component Analysis. Ο μετασχηματισμός των χαρακτηριστικών δημιουργεί ένα νέο σύνολο χαρακτηριστικών, λιγότερων διαστάσεων από το αρχικό, αλλά χωρίς μείωση των βασικών διαστάσεων. Επίσης, συχνά χρησιμοποιείται για την οπτικοποίηση των δεδομένων.

  28. Instance Selection • Η επιλογή περιπτώσεων (instance selection) μπορεί να επιτευχθεί με δύο τύπους μεθόδων: • Samplingmethods : • Random Sampling - randomly select "m" instances from the "n" initial instances. • Stratified Sampling - randomly select "m" instances from the "n" initial instances, such that the distribution of classes is maintained in the selected sample. • Search-based methods : • Search for representative instances in the data, based on some criterion and remove the remaining instances. • Use Statistical measures (number of instances, mean or standard deviations) to replace redundant instances with their representative pseudo-instances.

  29. Συμπίεση δεδομένων • Wavelet Transforms • Τεχνική που εφαρμόζεται σε ένα διάνυσμα D και το μετασχηματίζει σε ένα αριθμητικά διαφορετικό διάνυσμα D’ ίδιου μήκους • Κυρίως χρησιμοποιείται για συμπίεση χρονοσειρών • Παράδειγμα 2 τύπων wavelet μετασχηματισμών • Daubechies μετασχηματισμός • Haarμετασχηματισμός

  30. Numerosity reduction • Παραμετροποιήσιμες μέθοδοι • Χρησιμοποιείται ένα μοντέλο(ή μια συνάρτηση) για την εκτίμηση των δεδομένων και έτσι αποθηκεύονται μόνο οι παράμετροι του αντί των δεδομένων • Log-linear μοντέλα τα οποία διατηρούν διακριτά πολυδιάστατες πιθανοτικές κατανομές • Μη-παραμετροποιήσιμες μέθοδοι • Ιστογράμματα • Συσταδοποίηση • Δειγματοληψία

  31. Βήματα προεπεξεργασίας • Καθαρισμός δεδομένων (Data cleaning) • Συμπλήρωση των missing data, εξομάλυνση δεδομένων με θόρυβο, αναγνώριση ή απομάκρυνση από outliers, και επίλυση ασυνεπειών στα δεδομένα • Ενοποίηση δεδομένων (Data integration) • Ενοποίηση πολλαπλών βάσεων δεδομένων • Μετασχηματισμός δεδομένων (Data transformation) • Κανονικοποίηση και συνάθροιση δεδομένων • Μείωση δεδομένων (Data reduction) • Διατηρούνται μειωμένες αναπαραστάσεις δεδομένων σε χωρητικότητα αλλά δημιουργούνται ίδια ή παρόμοια αποτελέσματα ανάλυσης • Διακριτοποίησηδεδομένων (Data discretization) • Μέρος της μείωσης δεδομένων αλλά με ιδιαίτερη σημαντικότητα, ειδικά για numerical data

  32. Διακριτοποίηση δεδομένων (Data discretization) • Τρείς βασικοί τύποι χαρακτηριστικών: • Nominal — values from an unordered set • Ordinal — values from an ordered set • Continuous — real numbers • Discretization: • Διαχωρισμός του πεδίου των χαρακτηριστικών σε intervals. Οι ετικέτες των intervals χρησιμοποιούνται μετά για την αντικατάσταση των δεδομένων • Classification αλγόριθμοι

More Related