730 likes | 1.04k Views
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. Β. Μεγαλοοικονόμου - Χ. Μακρής. (Ιστοσελίδα: http://mmlab.ceid.upatras.gr/courses/data_mining/ ). ΔΙΔΑΣΚΑΛΙΑ-ΑΞΙΟΛΟΓΗΣΗ. Διδασκαλία Πέμπτη 09.00-11.00, Β4 (παραδόσεις)
E N D
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Δεδομένωνκαι Αλγόριθμοι Μάθησης Β. Μεγαλοοικονόμου - Χ. Μακρής (Ιστοσελίδα: http://mmlab.ceid.upatras.gr/courses/data_mining/)
ΔΙΔΑΣΚΑΛΙΑ-ΑΞΙΟΛΟΓΗΣΗ Διδασκαλία • Πέμπτη 09.00-11.00, Β4 (παραδόσεις) • 2 ώρες φροντιστήριο – Πέμπτη 13.00-15.00, Β3 Αξιολόγηση • Εργασία (30%) • Γραπτή Εξέταση (70%)
Ύλη Μαθήματος • Εισαγωγή • Αλγόριθμοι ομαδοποίησης 1 • Αλγόριθμοι ομαδοποίησης 2 • Φάση προεπεξεργασίας και συμπίεσης • Αλγόριθμοι κανόνων συσχέτισης 1 • Αλγόριθμοι κανόνων συσχέτισης 2 • Αλγόριθμοι κατηγοριοποίησης 1 • Αλγόριθμοι κατηγοριοποίησης 2 • Bayesian δίκτυα, νευρωνικά δίκτυα • Εξόρυξη δεδομένων από παγκόσμιο ιστό • Εξόρυξη χωρικών δεδομένων • Εξόρυξη χρονικών δεδομένων • Εξόρυξη δεδομένων από ακολουθίες
Κίνητρο – Γιατί χρειάζεται η εξόρυξη δεδομένων; • Έχουμε πολλά δεδομένα αλλά μικρή πληροφορία! • Πρόβλημα έκρηξης δεδομένων • Τα εργαλεία αυτοματοποιημένης συλλογής δεδομένων και η τελευταία τεχνολογία βάσεων δεδομένων οδηγεί σε ένα μεγάλο πλήθος δεδομένων το οποίο αποθηκεύεται σε βάσεις δεδομένων, data warehouses και άλλες αποθήκες δεδομένων • Λύση: Εξόρυξη δεδομένων • Εξόρυξη ενδιαφέρουσας γνώσης (κανόνες, πρότυπα, περιορισμοί) από δεδομένα μεγάλων βάσεων δεδομένων
Εξέλιξη της τεχνολογίας βάσεων δεδομένων • 1960: • Συλλογή δεδομένων, δημιουργία βάσης δεδομένων, συστήματα διαχείρισης πληροφορίας (IMS)καιδικτυακές βάσεις δεδομένων (network DBMS) • 1970: • Σχεσιακό μοντέλο δεδομένων, υλοποίηση σχεσιακούΣΔΒΔ • 1980: • RDBMS, προηγμένα μοντέλα δεδομένων (extended-relational, OO, deductive,κτλ.) καισυστήματαπροσανατολισμένα στην εφαρμογή (spatial, scientific, engineering, κτλ.) • 1990—2010: • Εξόρυξη δεδομένων και αποθηκών δεδομένων (Data mining, data warehousing), βάσεις δεδομένων πολυμέσων, βάσεις δεδομένων στο Παγκόσμιο Ιστό (Web databases)
Ανακάλυψη Γνώσης-Εξόρυξη δεδομένων ή γνώσης • Τι είναι ανακάλυψη γνώσης από βάσεις δεδομένων (knowledge discoveryfrom databases-KDD): • Αποκάλυψη ή παραγωγή λειτουργικής γνώσης, μέσω της • ανάλυσης δεδομένων από μεγάλες αποθήκες δεδομένων. • Εύρεση δομών γνώσης που αναδεικνύουν γνώση (π.χ. • συσχετίσεις ή κανόνες) που είναι κρυμμένη μέσα στα δεδομένα • και δεν μπορούν να εξαχθούν από τον άνθρωπο με ευκολία. • Αναφέρεται στην όλη διαδικασία. • Τι είναι εξόρυξη δεδομένων (data mining) και εξόρυξη γνώσης (knowledge mining): • Τα ίδια με παραπάνω. • Αναφέρεται στις επί μέρους τεχνικές.
Ανακάλυψη γνώσης από δεδομένα(1) Ορισμός • «KDD είναι η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα.» (Frawley, Piatesky-Shaphiro and Matheus, 1991). Δεδομένα: Οντότητες ή συσχετίσεις του πραγματικού κόσμου (π.χ. εγγραφές συναλλαγών τραπέζης, supermarket κλπ). Πρότυπο: Μια έκφραση σε μια γλώσσα που χαρακτηρίζει ένα υποσύνολο των δεδομένων (π.χ. ένας κανόνας). Εγκυρότητα: Το πρότυπο είναι συνεπές σε νέα δεδομένα. Πιθανή χρησιμότητα: Να μπορεί να χρησιμοποιηθεί για κάποιο σκοπό (π.χ. λήψη αποφάσεων). Τελικά κατανοητό: Κοινώς κατανοητό, ώστε να είναι κοινώς χρήσιμο.
Τι είναι η εξόρυξη δεδομένων; • Εξόρυξη δεδομένων/Data mining (Ανακάλυψη γνώσης από βάσεις δεδομένων): • Εξαγωγή ενδιαφέρουσας (μη τετριμμένης, προηγούμεναάγνωστης και πιθανά χρήσιμης) πληροφορίας ή προτύπων απόδεδομένα σε μεγάλες βάσεις δεδομένων • Εναλλακτικά ονόματα: • Εξόρυξη (Ανακάλυψη) γνώσης σε βάσεις δεδομένων (KDD),εξαγωγή γνώσης(knowledge extraction), ανάλυσηδεδομένων/προτύπων(data/pattern analysis) κτλ. • Τι δεν είναι η εξόρυξη δεδομένων; • (Deductive) Επεξεργασία ερωτημάτων • Έμπειρα συστήματα ή μικρής κλίμακας στατιστικά προγράμματα
Τι είναι η εξόρυξη δεδομένων? • Τώρα που έχουμε συλλέξει τόσα δεδομένα, τι κάνουμε με αυτά; • Εξαγωγή χρήσιμων προτύπων (αυτόματα) • Συσχετίσεις (π.χ., ψωμί + βούτυρο --> γάλα) • Ακολουθίες (π.χ., χρονικά δεδομένα που σχετίζονται • με το χρηματιστήριο) • Κανόνες που διαμοιράζουν τα δεδομένα (π.χ. πρόβλημα τοποθεσίας • αποθήκευσης) • Ποια πρότυπα έχουν “ενδιαφέρον”; Περιεχόμενο πληροφορίας, εμπιστοσύνη και υποστήριξη, απρόσμενο (χρησιμότητα στην λήψη απόφασης))
Γιατί εξόρυξη δεδομένων; — Πιθανές εφαρμογές • Ανάλυση βάσης δεδομένων και υποστήριξη απόφασης • Ανάλυση και διαχείριση αγοράς • Μάρκετινγκ στόχου, διαχείριση σε σχέση με τον πελάτη, ανάλυση καλαθιού αγορών, cross selling, τμηματοποίηση αγοράς • Ανάλυση και διαχείριση κινδύνου/ρίσκου • Πρόβλεψη, έλεγχος ποιότητας,ανάλυση ανταγωνισμού • Εντοπισμός οικονομικού εγκλήματος • Άλλες εφαρμογές • Εξόρυξη κειμένου (newsgroup, email, documents) και ανάλυση Ιστού. • Εξόρυξη χωρικών δεδομένων • Έξυπνη απάντηση ερωτήματος
Ανάλυση και διαχείριση αγοράς • Ποιές είναι οι πηγές των δεδομένων για την ανάλυση; (Δοσοληψίες με κάρτες, εκπτωτικά κουπόνια, κλήσεις παραπόνων από πελάτες, κλπ.) • Μάρκετινγκ στόχου (Εύρεση ομάδων “μοντέλων” πελατώνπου έχουν κοινά χαρακτηριστικά: εισόδημα, συνήθης αγορές, κλπ.) • Καθορισμός προτύπων συναλλαγών των πελατών με το χρόνο (Μετατροπή ενός λογαριασμού μονού ατόμου σε κοινό, γενικά αλλαγές στοιχείων λογαριασμού.) • «Cross-market»ανάλυση (Συσχετίσεις μεταξύ προϊόντων πωλήσεων και προβλέψεις με βάσει τις πωλήσεις) • Προφίλ πελάτη (Ποια προϊόντα αγοράζει ο πελάτης) • Προσδιορισμός απαιτήσεων πελάτη (Τα καλύτερα προϊόντα για διαφορετικούς πελάτες) • Παροχή συνοπτικήςπληροφορίας (πολυδιάστατες αναφορές – multidimensional summary reports)
Ανάλυση και διαχείριση κινδύνου/ρίσκου • Οικονομικός προγραμματισμός • Ανάλυση και πρόβλεψη κίνησης μετρητών • Ανάλυση χρονοσειρών και cross-sectional (ανάλυση τάσης (trend analysis), κλπ.) • Προγραμματισμός πηγών: • Σύνοψη και σύγκριση των πηγών και των εξόδων • Ανταγωνισμός: • Έλεγχος ανταγωνιστών και τάσεων της αγοράς • Ομαδοποίηση πελατών και απόδοση τιμών με βάσει τις ομάδες αυτές • Ορισμός στρατηγικής απόδοσης τιμών σε μία ιδιαίτερα ανταγωνιστική αγορά
Εντοπισμός και διαχείριση οικονομικού εγκλήματος/aπάτης • Εφαρμογές • Yγεία, υπηρεσίες πιστωτικών καρτών, τηλεπικοινωνίεςκτλ. • Προσέγγιση • Χρήση ιστορικών στοιχείων για την δόμηση μοντέλων κανονικής και λανθασμένης συμπεριφοράς και χρήση τεχνικών εξόρυξης δεδομένων για τον προσδιορισμό λανθασμένων στιγμιοτύπων • Παραδείγματα • Ασφάλεια αυτοκινήτων: εντοπισμός ομάδων που προκαλούν ατυχήματα για την είσπραξη της ασφάλειας • Ξέπλυμα χρήματος: εντοπισμός ύποπτων δοσοληψιών χρημάτων • Ιατρική ασφάλεια: εντοπισμός επαγγελματιών ασθενών, ακατάλληλων ιατρικών θεραπειών • Εντοπισμός τηλεφωνικού σφάλματος: Μοντέλο τηλεφωνικής κλήσης: προορισμός κλήσης,διάρκεια, χρονική στιγμήημέρας/εβδομάδας. Ανάλυση προτύπων πουαποκλίνουν από τα αναμενόμενα
Ανακάλυψη Ιατρικής/ Βιολογικής Γνώσης • Ανακάλυψη συσχετίσεων δομής-λειτουργίας • Χαρτογράφηση ανθρώπινου εγκεφάλου (lesion-deficit, task-activation associations) • Δομή κυττάρου (cytoskeleton) και λειτουργικότητα ή παθολογία • Δομή και λειτουργικότητα πρωτεϊνών • Ανακάλυψη αιτιακών σχέσεων(causal relationships) • Συμπτώματα και κλινικές καταστάσεις ασθενών • Ανάλυση ακολουθίας DNA • Βιοπληροφορική (microarrays, κτλ.)
Άλλες εφαρμογές • Αθλήματα • IBM Advanced Scout ανέλυσανστατιστικά παιχνιδιών του NBA (shots blocked, assists, and fouls) για να κερδίσουν ανταγωνιστικό πλεονέκτημα για New York Knicks και Miami Heat • Αστρονομία • Τα JPL και Palomar Observatory ανακάλυψαν 22 quasarsμε την βοήθεια της εξόρυξης δεδομένων • Internet Web Surf-Aid • IBM Surf-Aid χρησιμοποίησε data mining αλγορίθμουςσε Web access logs για ιστοσελίδες αγοράς προιόντων για να ανακαλύψουν προτιμήσεις και συμπεριφορές πελατών, αναλύοντας την αποτελεσματικότητα του Web marketing, βελτιώνοντας Web site organization, κλπ.
Ανακάλυψη γνώσης από δεδομένα Γνώση Αξιολόγηση προτύπων • Εξόρυξη δεδομένων: η κεντρική διαδικασία στην ανακάλυψη γνώσης. Πρότυπα Εξόρυξη δεδομένων Επεξεργασμένα δεδομένα Επιλεγμένα δεδομένα Επεξεργασία & Μετασχηματισμός Επιλογή Αποθήκη δεδομένων Ενοποίηση δεδομένων Βάσεις δεδομένων Αρχεία
Δεδομένα εκπαίδευσης Δεδομένα λειτουργίας Αποτελέσματα λειτουργίας Σύστημα βασισμένο στη γνώση Γνώση Εξόρυξη γνώσης Εξόρυξη γνώσης
Βασικά Βήματα Διαδικασίας Ανακάλυψης Γνώσης • Επιλογή(Selection): Απόκτηση δεδομένων από διάφορες ετερογενείς πηγές. • Προεπεξεργασία (Preprocessing): Εσφαλμένα, προβληματικά ή ελλείποντα δεδομένα τακτοποιούνται(μπορεί να απαιτήσει το 60% της προσπάθειας!) • Μετασχηματισμός (Transformation): Μετατροπή ετερογενών δεδομένων σε κοινή τυποποίηση για επεξεργασία. • Εξόρυξη δεδομένων (Data mining): Εφαρμογή αλγορίθμων για παραγωγή μοντέλου. • Διερμηνεία/Αξιολόγηση (Interpretation/Evaluation): Παρουσίαση των αποτελεσμάτων της εξόρυξης δεδομένων στους χρήστες για αξιολόγηση (χρήση μεθόδων οπτικοποίησης και GUI).
Εξαγωγή Features Τα features διακρίνονται σε: • Quantitative features: • continuous values (π.χ. βάρος), • discrete values (π.χ.ο αριθμός των υπολογιστών), • interval values (π.χ. η διάρκεια ενός γεγονότος). • Qualitative features: • Ονομαστικά (nominal) or unordered (π.χ. χρώμα), • Ordinal (π.χ. στρατιωτική διάκριση ή ποιοτική αξιολόγηση της θερμοκρασίας (“ζεστό” or “κρύο”) ή της έντασης του ήχου (“ήσυχα” or “δυνατά”)). • Structured features: (trees, symbolic objects)
Αλγόριθμοι Εξόρυξης Δεδομένων • Συνθετικά μέρη: • Περιγραφή μοντέλου • Τύπος ή στόχος μοντέλου (π.χ. ταξινόμηση, συσταδοποίηση) • Μορφή μοντέλου (π.χ. δέντρα, κανόνες, νευρωνικά δίκτυα) • Κριτήρια αξιολόγησης μοντέλου (εγκυρότητα, ακρίβεια κλπ) • Τεχνική αναζήτησης: • Παραμέτρων ή • Μοντέλου
Τύποι Μοντέλων • Τύποι μοντέλου • Προβλεπτικό (predictive) • Κάνει πρόβλεψη συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και οι οποίες βασίζονται στη συμπεριφορά άλλων μεταβλητών. Η πρόβλεψη μπορεί να στηρίζεται σε ιστορικά δεδομένα. • Περιγραφικό (descriptive) • Βρίσκει πρότυπα (patterns) ή σχέσεις (relationships) που ενυπάρχουν στα δεδομένα. Ερευνά τις ιδιότητες των υπό εξέταση δεδομένων, εξηγεί τη συμπεριφορά τους.
Διεργασίες Εξόρυξης Δεδομένων Προβλεπτικού τύπου ή μοντέλου • Κατηγοριοποίηση (Classification) • Παλινδρόμηση ή Παρεμβολή (Regression) • Ανάλυση χρονοσειρών (Time series analysis) • Πρόβλεψη (Prediction) Περιγραφικού τύπου ή μοντέλου • Συσταδοποίηση (Clustering) • Σύνοψη (Summarization) ή Γενίκευση (Generalization) • Εύρεση Κανόνων Συσχέτισης (Association Rules) • Ανακάλυψη Συσχετίσεων σε Ακολουθίες (Pattern Discovery in Sequences)
Απαιτήσεις Εξόρυξης • Χειρισμός διαφορετικών τύπων δεδομένων. • Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων • Χρησιμότητα, εγκυρότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων • Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων. • Διαλογική ανακάλυψη γνώσης σε πολλαπλά επίπεδα αφαίρεσης • Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων
Κατηγοριοποίηση Μεθόδων Εξόρυξης • Τι είδους βάση δεδομένων χρησιμοποιείται; (σχεσιακή, αντικειμενοστραφής) • Τι είδους γνώση εξάγεται (κανόνες συσχέτισης, συσταδοποίηση, κανόνες κατηγοριοποίησης, χαρακτηριστικοί κανόνες); • Ποιο είδος τεχνικών χρησιμοποιείται ( προσανατολισμένα στα δεδομένα, διαλογικά, γενικής εξόρυξης, βασισμένη στα πρότυπα);
Κατηγοριοποίηση δεδομένων (data classification): Βασίζεται στην εξέταση των χαρακτηριστικώνενός νέου αντικειμένου (μη κατηγοριοποιημένο) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα προς κατηγοριοποίηση αντικείμενα αναπαριστάνονταιγενικά από τις εγγραφές της βάσης δεδομένων Η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες απότις προκαθορισμένες κατηγορίες. Bασικές μέθοδοι: Μέθοδος Bayes, Δέντρα Αποφάσεων, Νευρωνικά Δίκτυα Κατηγοριοποίηση Δεδομένων
Κατηγοριοποίηση – Πρόβλεψη • Κατηγοριοποίηση: • Προβλέπει την κατηγορία (predicts categorical class labels) • Κατηγοριοποιεί δεδομένα (κατασκευάζοντας ένα μοντέλο) βασισμένο σε training set και τις τιμές (ετικέτες κατηγορίας class labels) του χαρακτηριστικού κατηγορίας και το χρησιμοποιεί για κατηγοριοποίηση νέων δεδομένων • Πρόβλεψη: • Μοντελοποίησησυνεχών συναρτήσεων, π.χ., πρόβλεψη άγνωστων ή απώντων τιμών • Τυπικές Εφαρμογές • credit approval • target marketing • medical diagnosis • treatment effectiveness analysis
Κατηγοριοποίηση — Μια διαδικασία δύο βημάτων • Κατασκευή μοντέλου: περιγράφοντας ένα σύνολο προκαθορισμένων κατηγοριών • Καθε μια από τις πλειάδες (tuples) υποτίθεται ότι ανήκει σε μια προκαθορισμένη κατηγορία, όπως καθορίζεται από το γνώρισμα κατηγορίας (κλάσης) (supervised learning) • Το σύνολο των πλειάδων που χρησιμοποιείται για κατασκευή μοντέλου: training set • Το μοντέλο αναπαρίσταται σαν classification rules, decision trees, ή μαθηματικές εξισώσεις • Χρήση μοντέλου: για κατηγοριοποίηση άγνωστων αντικειμένων • Υπολογισμός ακρίβειας του μοντέλου κάνοντας χρήση ενός test set • Η γνωστή ετικέτα του test sample συγκίνεται με το αποτέλεσμα κατηγοριοποίησης του μοντέλου • Η τιμή της ακρίβειας είναι το ποσοστό των test set samples που κατηγοριοποιήθηκαν σωστά απο το μοντέλο • Το test set είναι ανεξάρτητο από το training set, αλλιώς μπορεί να συμβεί over-fitting
Training Data Classifier (Model) Διαδικασία Κατηγοριοποίησης: Κατασκευή Μοντέλου Classification Algorithms IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
Classifier Testing Data Unseen Data Διαδικασία Κατηγοριοποίησης: Χρήση Μοντέλουγια Πρόβλεψη (Jeff, Professor, 4) Tenured?
Η συσταδοποίηση δεδομένων (data clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο συστάδων (clusters). Στην συσταδοποίηση δεν υπάρχουν προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Επαφίεται σε εμάς να καθορίσουμε την σημασία που θα έχει κάθε μία από τις ομάδες που προκύπτουν. Για παράδειγμαομάδες που περιλαμβάνουν τα χαρακτηριστικά που σχετίζονται με τα φύλλα και τον καρπό φυτών μπορεί να υποδεικνύουν διαφορετικές ποικιλίες ενός φυτού. Αντιπροσωπευτικοί αλγόριθμοι: K-Means και παραλλαγές, PAM, BIRCH, ROCK. Συσταδοποίηση Δεδομένων (1)
ΣυσταδοποίησηΔεδομένων (2) • Διαιρετική συσταδοποίηση (Partitioning Clustering) • Ιεραρχική Συσταδοποίηση (Hierarchical Clustering) • Ασαφής συσταδοποίηση(Fuzzy Clustering) • Μη ασαφής συσταδοποίηση (CrispClustering) • Συσταδοποίηση βασισμένη στα δίκτυα Kohonen (Kohonen Net Clustering) • Συσταδοποίηση βασισμένη στην πυκνότητα (Density-based Clustering) • Συσταδοποίηση βασισμένη σε πλέγμα (Grid-based Clustering) • Συσταδοποίηση υποχώρων (Subspace Clustering).
ΣυσταδοποίησηΔεδομένων (3) • Οι περισσότεροι αλγόριθμοι υποθέτουν μία μεγάλη δομή δεδομένων που είναι memory resident. • Η ομαδοποίηση μπορεί να πραγματοποιηθεί πρώτα σε ένα δείγμα της Β.Δ. και στη συνέχεια να εφαρμοστεί σε όλη τη Β.Δ. • Αλγόριθμοι • BIRCH • DBSCAN • CURE
ΣυσταδοποίησηΔεδομένων (4) • Ένα αντικείμενο xείναι ένα ξεχωριστό-μοναδικό data itemπου χρησιμοποιείται από τον clustering αλγόριθμο. • Αποτελείται από ένα διάνυσμα dμετρικών: x = (x1, ... xd),όπου xiείναι τo i-οστό χαρακτηριστικό (feature) του αντικειμένουκαι dη διάσταση του αντικειμένου ή του χώρου που δημιουργείται από τα αντικείμενα.
ΣυσταδοποίησηΔεδομένων (5) • Hard clustering τεχνικές: αναθέτουν μία ετικέτα κλάσης(class) li σε κάθεαντικείμενο xi, που είναι προσδιοριστική για την κλάση του. • Fuzzy clustering διαδικασίες:αναθέτουν σε κάθε pattern xiπου δίνεται ως είσοδος ένα «ποσοστό συμμετοχής» fij σε κάθε παραγόμενο clusterj.
Κανόνες Συσχέτισης (1) • Η εξαγωγή κανόνων συσχέτισης (Mining Association Rules) θεωρείται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει ιδιαίτερο ενδιαφέρον καθώς οι κανόνες συσχέτισης παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. • Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: ΑΒ όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα
Κανόνες Συσχέτισης (2) • Σύνολo αντικειμένων: I={I1,I2,…,Im} • Συναλλαγές: D={t1,t2, …, tn}, tj I • Συνολοστοιχεία: {Ii1,Ii2, …, Iik} I • Υποστήριξη συνολοστοιχείου:ποσοστό συναλλαγών που περιέχουν συνολοστοιχείο. • Μεγάλα (Συχνά) συνολοστοιχεία:συνολοστοιχεία ο αριθμός εμφανίσεων των οποίων είναι πάνω από κάποιο όριο.
Κανόνες Συσχέτισης (3) • Κανόνας Συσχέτισης: συνεπαγωγή X Y όπου X,Y I και X Y = • Υποστήριξη Κ.Σ. X Y: ποσοστό συναλλαγών που περιέχουν το σύνολο X Y, δηλαδή ίσο με P(X Y) • Εμπιστοσύνη Κ.Σ. X Y:πηλίκο του αριθμού των συναλλαγών που περιέχουντο X Y προς αυτά που περιέχουν το X, δηλαδή ίσο με P(Υ/Χ)
Λειτουργικότητεςεξόρυξης δεδομένων– Πρότυπα που μπορούν να εξαχθούν • Ανάλυση Outlier • Outlier: ένα αντικείμενο δεδομένων το οποίο δεν ακολουθεί την γενική συμπεριφορά των δεδομένων (μπορεί να εντοπισθεί με την χρήση στατιστικών ελέγχων που υιοθετούν ένα πιθανοτικό μοντέλο) • Συχνά θεωρείται θόρυβος αλλά είναι χρήσιμο στον εντοπισμό σφάλματος, την ανάλυση σπάνιων γεγονότων • Ανάλυση τάσης και εξέλιξης (trend and evolution analysis) • Μελετά την κανονικότητα των αντικειμένων των οποίων η συμπεριφορά μεταβάλλεται με τον χρόνο • Τάση και απόκλιση: ανάλυση regression • Εξόρυξη ακολουθιακού προτύπου,ανάλυση περιοδικότητας • Ανάλυση με βάση την ομοιότητα
Πότε είναι ενδιαφέρον ένα “Ανακαλυφθέν” πρότυπο; • Ένα σύστημαεξόρυξης δεδομένων μπορεί να παράγει χιλιάδες πρότυπα, τα οποία δεν είναι όλα ενδιαφέροντα. • Προτεινόμενη προσέγγιση: Ανθρωποκεντρική, με βάση το ερώτημα, εστιασμένη εξόρυξη δεδομένων • Μετρικές ενδιαφέροντος: Ένα πρότυπο είναιενδιαφέρονεάν είναιεύκολα κατανοητόαπό τους ανθρώπους, έγκυρο σε νέα ή πειραματικά δεδομέναμε κάποιο βαθμό βεβαιότητας, πιθανά χρήσιμο, καινούριο, ή επικυρώνει κάποια υπόθεσηπου ο χρήστης επιδιώκει να επαληθεύσει • Αντικειμενικές vs. υποκειμενικέςμετρικές ενδιαφέροντος: • Αντικειμενικές:βασίζονται σε στατιστικές και δομές προτύπων, π.χ., confidence and support • Υποκειμενικές:βασίζονται στην γνώμη του χρήστη για τα δεδομένα, π.χ., unexpectedness, novelty, κλπ
Μπορούμε να βρούμε όλα τα ενδιαφέροντα πρότυπα; • Εύρεση όλων των ενδιαφερόντων προτύπων: Πληρότητα • Μπορεί ένα σύστημα εξόρυξης δεδομένων να βρει όλατα ενδιαφέροντα πρότυπα; • Συσχέτιση (association) vs. Ταξινόμηση (classification) vs. Ομαδοποίηση (clustering) • Αναζήτηση μόνο των ενδιαφερόντων προτύπων: Βελτιστοποίηση • Μπορεί ένα σύστημα εξόρυξης δεδομένωννα βρειμόνοτα ενδιαφέροντα πρότυπα; • Προσεγγίσεις • Πρώτα παρήγαγε όλα τα πρότυπα και στην συνέχεια φιλτράρισε αυτά που δεν μας ενδιαφέρουν • Παρήγαγε μόνο τα ενδιαφέροντα πρότυπα - βελτιστοποίηση ερωτήματος
Χρονολογικές Σειρές (1) • Xρονολογική σειρά: μια ακολουθία αριθμών κάθε ένας από τους οποίους έχει ένα timestamp (ετικέτα χρόνου). Χαρακτηριστικά υποθέτουμε ότι οι διαδοχικοί αριθμοί χωρίζονται από ένα σταθερό χρονικό διάστημα, και το πραγματικό timestamp παραλείπεται. • Διάφορες φυσικές διαδικασίες παράγουν δεδομένα υπό μορφή χρονολογικών σειρών (λ.χ. εφαρμογές στον οικονομικό και περιβαλλοντικό τομέα).
Χρονολογικές Σειρές (2) • Μοντελοποίηση χρονικών γεγονότων • Ανάλυση χρονολογικών σειρών • Ανάλυση τάσεων • Μετασχηματισμός • Ομοιότητα • Πρόβλεψη • Αλγόριθμοι παραγωγής κανόνων χρονικών συσχετίσεων
Ομοιότητα Χρονολογικών Σειρών • Μια ρεαλιστική συνάρτηση απόστασης που θα ταιριάζει με την αντίληψη του χρήστη για το τι αυτός θεωρεί παρόμοιο. • Ένα αποδοτικό σχέδιο indexing, το οποίο θα επιταχύνει τις ερωτήσεις των χρηστών. Η p-normαπόσταση μεταξύ δύο ν-διάστατων διανυσμάτων Χ και Υ ορίζεται ως εξής:
Δέντρα Αποφάσεων Κανόνες Νευρωνικά δίκτυα Στατιστικοί ταξινομητές οικ.κατ. Ε Τ Α ηλικία>30 φύλο ΟΧΙ Α Γ Ν Ο ΝΑΙ ΟΧΙ ΟΧΙ ΝΑΙ Φύλο Γ ν ο ΝΑΙ ΟΧΙ Α 20 25 30 Ηλικία Φ Η Ε Α Τ ΧΟ ΧΑ ΑΠ Παραδείγματα (Ηλικία<=30) & (Οικ:Τ) -> (Φύλο:Γ) (Ηλικία<=30) & (Οικ:Ε) -> (Φύλο:Γ) ...
Γειτονικές Περιοχές • Ανάκτηση Πληροφορίας • Βάσεις Δεδομένων • Τεχνητή Νοημοσύνη • Ευφυής Υπολογισμός • Στατιστική Ανάλυση Δεδομένων
Data Mining Development • Similarity Measures • Hierarchical Clustering • IR Systems • Imprecise Queries • Textual Data • Web Search Engines Information Retrieval • Relational Data Model • SQL • Association Rule Algorithms • Data Warehousing • Scalability Techniques Databases Statistics • Bayes Theorem • Regression Analysis • EM Algorithm • K-Means Clustering • Time Series Analysis Data Mining Algorithms • Algorithm Design Techniques • Algorithm Analysis • Data Structures Machine Learning • Neural Networks • Decision Tree Algorithms
Μάθηση υπό επίβλεψη ή από παραδείγματα: Μάθηση εννοιών (Concept Learning) Δέντρα Ταξινόμησης ή Απόφασης (Classification or Decision Trees) Μάθηση Κανόνων (Rule Learning) Μάθηση κατά Bayes Γραμμική Παλινδρόμηση/Παρεμβολή (Linear Regression) Νευρωνικά Δίκτυα (Neural Networks) Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) Μάθηση χωρίς επίβλεψη ή από παρατήρηση: Εξαγωγή Ομάδων/Συστάδων (clustering) Εξαγωγή συσχετίσεων (association rules) Είδη Μηχανικής Μάθησης
Ο στόχος της Μηχανικής Μάθησης είναι η εύρεση τεχνικών μάθησης ως μίμηση της ανθρώπινης συμπεριφοράς (δηλ. η παραγωγή προγραμμάτων που μαθαίνουν), ενώ της Εξόρυξης Γνώσης η ανακάλυψη πληροφορίας που θα είναι χρήσιμη στον άνθρωπο. (Dunham, 2003) Η Εξόρυξη Γνώσης χρησιμοποιεί μεγαλύτερες, ετερογενείς και «ακατέργαστες» βάσεις δεδομένων, ενώ η Μηχανική Μάθηση μικρότερες, ομογενείς και κατάλληλης μορφής. Αρκετοί αλγόριθμοι Μηχανικής Μάθησης χρησιμοποιούνται στην Εξόρυξη Γνώσης Μηχανική ΜάθησηκαιΕξόρυξη Γνώσης