320 likes | 519 Views
ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης. http://delab.csd.auth.gr/~symeon. Αποθήκες Δεδομένων.
E N D
ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης http://delab.csd.auth.gr/~symeon
Αποθήκες Δεδομένων • Η τεχνολογία των αποθηκών δεδομένων προσφέρει • ολοκλήρωση ετερογενών πηγών δεδομένων και • πλατφόρμα για αποδοτική ανάλυση ιστορικών δεδομένων • Μία αποθήκη δεδομένων αποτελεί μία συλλογή δεδομένων που • επιλέγονται από τις Επιχειρησιακές Βάσεις Δεδομένων, • Ολοκληρώνονται (integrated), • τα δεδομένα αναλύονται με διαδικασίες όπως η On-line Analytical Processing (OLAP) ή η εξόρυξη δεδομένων.
Ορισμός Αποθήκης Δεδομένων Σύμφωνα με τον (Inmon, 1992) ορίζουμε την αποθήκη δεδομένων ως μια συλλογή δεδομένων • προσανατολισμένη προς ένα θέμα (subject-oriented), • Π.χ. πωλήσεις, προϊόντα, πελάτες, κτλ. • ολοκληρωμένη (integrated), • Ενοποίηση ετερογενών δεδομένων, • χρονικά μεταβαλλόμενη (time-variant), • Ιστορικά δεδομένα • Που δεν διαγράφεται (non-volatile) Με σκοπό την υποστήριξη λήψης αποφάσεων • W.H. Inmon, Building the Data Warehouse, 1992 (ο εφευρέτης του όρου)
Αποθήκες δεδομένων – Λειτουργικά Χαρακτηριστικά • Ιστορικά Δεδομένα • Ο χρονικός ορίζοντας μιας αποθήκης δεδομένων είναι πολύ μεγαλύτερος από ότι ενός συστήματος σε λειτουργία • Η ΒΔ έχει τα τωρινά δεδομένα ενώ οι αποθήκες διατηρούν και παλιά δεδομένα (πχ τα προηγούμενα 5-10 χρόνια) • Τροποποιήσεις • Οι τροποποιήσεις στις πηγές δεδομένων δεν φαίνονται άμεσα στις αποθήκες δεδομένων, συνήθως περιοδικά • Μόνο δύο βασικές λειτουργίες: αρχικό φόρτωμα των δεδομένων (loading) και προσπέλαση δεδομένων (access)
Εξόρυξη Δεδομένων - Ορισμός • Η εξαγωγή πληροφορίας από μεγάλες βάσεις δεδομένων: • ενδιαφέρουσας • νέας (μη γνωστής εκ των προτέρων) • μη προφανούς • χρήσιμης (αξιοποιήσιμης) Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 5
Κίνητρο για εξόρυξη • “Παντού δεδομένα…” • Σχεσιακές βάσεις • αποθήκες δεδομένων • δεδομένα συναλλαγών (ATM, υπερκαταστήματα) • χωρικά δεδομένα (GIS, δορυφόροι) • δεδομένα χρονοσειρών • πολυμεσικά δεδομένα (φωνή, εικόνα) • δεδομένα Ιστού (logs, ιστοσελίδες) • Αντί “προβλήματος”, πηγή πλεονεκτήματος Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 6
Εξόρυξη ως διαδικασία Γνώση Αποτίμηση Προτύπων Εξόρυξη Δεδομένων Αποθήκη Δεδομένων Καθαρισμός Ανάδραση Βάσεις Δεδομένων Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 7
ΑΠΟΘΗΚΕΣ & ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εξόρυξη από τον Παγκόσμιο Ιστό • Δεδομένα Δομής (PageRank, HITS) • Δεδομένα Περιεχομένου • Δεδομένα Χρήσης Εξόρυξη Δεδομένων Κατηγοριοποίηση Ομαδοποίηση Κανόνες Συσχέτισης Υλοποίηση Αποθηκών Δεδομένων • Δημιουργία Κύβων • Analysis Services Αποθήκες & Εξόρυξη Δεδομένων
ΣΚΟΠΟΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ Τρεις διδακτικοί στόχοι: • Γνώση προχωρημένων θεμάτων Αποθηκών και Εξόρυξης Δεδομένων. • Ικανότητα για κριτική αξιολόγηση ερευνητικών εργασιών στην Εξόρυξη Δεδομένων. • Εφαρμογή αλγορίθμων Εξόρυξης Δεδομένων για την επίλυση προβλημάτων.
ΒΙΒΛΙΟΓΡΑΦΙΑ [1] Introduction to Data Mining (Tan, Steinbach, Kumar) [2] Mining of Massive Datasets (Rajaraman, Leskovec, Ullman) [3] Εισαγωγή στην εξόρυξη και τις αποθήκες δεδομένων (Νανόπουλος, Μανωλόπουλος) Mining of Massive Datasets AnandRajaraman Jure Leskovec Jeffrey D. Ullman
ΒΑΘΜΟΛΟΓΙΑ ΜΑΘΗΜΑΤΟΣ • ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ (2 μονάδες) • ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ (3 μονάδες) • ΕΞΕΤΑΣΕΙΣ (5 μονάδες) *Οι μονάδες αθροίζονται χωρίς προϋποθέσεις
ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ • Δυνατότητες επιλογής Θέματος • State-of-the-art papers from Conferences or Workshops • Papers from Data Engineering Lab(DELAB) • DM Book project Topics • Τρόπος Παρουσίασης • Διάλεξη 25 λεπτών • Προβολή διαφανειών σε Power Point (30 διαφάνειες) • Ερωτήσεις – Συζήτηση (5 λεπτά)
ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ • Χρήση του MS SQL Server 2008 R2 Business Intelligence • Σενάριο • Μια επιχείρηση διαθέτει μια βάση δεδομένων με στοιχεία των πελατών της. Θα σας δοθούν τρία προβλήματα που αντιμετωπίζει η επιχείρηση και θα προτείνετε λύσεις. • Εφαρμογή αλγορίθμων Εξόρυξης δεδομένων • Αλγόριθμοι Δέντρου, Συστάδων και Κανόνων Συσχέτισης • Παραδοτέα • Προσδιορισμός πιθανών μοντέλων • Διαγράμματα κύβου, δέντρου, συστάδων και κανόνων συσχέτισης • Αξιολόγηση των πιθανών μοντέλων • Επιλογή καλύτερου μοντέλου
Εξετάσεις • Ύλη μαθήματος (5-6 κεφάλαια από τα βιβλία που προτείνονται) • Θα πρέπει να απαντηθούν πέντε θέματα (1 μονάδα το καθένα)
Οργάνωση του Μαθήματος • Μάθημα 1 : Διάγραμμα & περιγραφή Μαθήματος (Syllabus) • Μάθημα 2 : Βασικές έννοιες στις Αποθήκες Δεδομένων • Μάθημα 3 : Φυσικό Επίπεδο Αποθηκών Δεδομένων • Μάθημα 4 : MS SQL Server 2008(Δημιουργία κύβου) • Μάθημα 5 :Κατηγοριοποίηση • Μάθημα 6 : Κανόνες Συσχέτισης • Μάθημα 7 : Ομαδοποίηση (πρώτος μέρος) • Μάθημα 8 : Ομαδοποίηση (δεύτερο μέρος) • Μάθημα 9 : MS SQL Server 2008(Ομαδοποίηση) • Μάθημα 10 : MS SQL Server 2008(Κατηγοριοποίηση) • Μάθημα 11 : MS SQL Server 2008(Κανόνες Συσχέτισης) • Μάθημα 12 :Εξόρυξη Δεδομένων Παγκόσμιου Ιστού • Μάθημα 13 :Εξόρυξη Δεδομένων Ειδικού Σκοπού
Αποθήκες Δεδομένων • Δημιουργία Αποθήκης Δεδομένων • Σχήματα Αστέρα, Χιονονιφάδας και Γαλαξία • Δημιουργία Κύβου • Συστήματα MOLAP, ROLAP και HOLAP • Υποβολή Ερωτημάτων σε Κύβο • Τεχνικές Drill Down και Drill up
Θέματα Ομαδοποίησης • K-means • Agglomerative Hierarchical Clustering • Density-based algorithms (DBSCAN) • Graph-based algorithms (Two-way nCut) • Scalable Clustering algorithms • Cluster Evaluation
Θέματα Κατηγοριοποίησης • Decision Tree Classifier • Model Overfitting • Naïve Bayes Classifier • Nearest Neighbor Classifier • Evaluating and Comparing Classifiers • Ensemble Methods
Θέματα Κανόνων Συσχέτισης • Frequent Itemset Generation (Apriori) • Alternative Itemset Generation (FP-Growth) • Sequential Patterns (temporal information) • Recommendations based on Ass. Rules (cross-sales) • Evaluation of Association Patterns
MS SQL Server 2008(Δημιουργία Κύβου) • Δημιουργία Κύβου Δεδομένων • Προβολή του Κύβου Δεδομένων • Αξιολόγηση του Κύβου Δεδομένων
MS SQL Server 2008(Κατηγοριοποίηση) • Εφαρμογή αλγορίθμου Δέντρου Απόφασης • Παράμετροι Αλγορίθμου • Προβολή του Δέντρου Απόφασης • Αξιολόγηση του Δέντρου Απόφασης
MS SQL Server 2008(Ομαδοποίηση) • Εφαρμογή αλγορίθμου Ομαδοποίησης • Παράμετροι Αλγορίθμου • Προβολή συστάδων • Αξιολόγηση των συστάδων
MS SQL Server 2008(Κανόνες Συσχέτισης) • Εφαρμογή αλγορίθμου Κανόνων Συσχέτισης • Παράμετροι Αλγορίθμου • Προβολή Κανόνων Συσχέτισης • Αξιολόγηση των Κανόνων Συσχέτισης
Εξόρυξη Δεδομένων ΧρήσηςΠΙ • Χρησιμοποιεί δεδομένα από αρχεία καταγραφής των ιστοσελίδων (Log files) και από τα προφίλ των χρηστών (π.χ. βαθμολογίες χρηστών σε προϊόντα) • Εφαρμογές : Συστήματα Συστάσεων Συνεργατικής Διήθησης. (Recommender Systems) Βαθμός 1 έως 5
Μάθημα 7 : Εξόρυξη Δεδομένων ΧρήσηςΠΙ • Data Collection • Session Analysis • Collaborative Filtering • Recommender Systems • Social Tagging • Singular Value Decomposition • Tensor Dimensionality Reduction
Εξόρυξη Δεδομένων Περιεχομένου ΠΙ • χρησιμοποιεί το περιεχόμενο των ιστοσελίδων (κείμενο, λέξειςκτλ.) προκειμένου να βρει ομοιότητα μεταξύ τους. • Εφαρμογές : Συστήματα Προτάσεων Βάσει περιεχομένου, Ανάκτηση Πληροφοριών. Συχνότητα
Εξόρυξη Δεδομένων Περιεχομένου ΠΙ • Information Retrieval Models • Web Page Pre-processing • Latent Semantic Indexing • Web Spamming • Content-based Collaborative Filtering • Explanations in Recommender Systems
Εξόρυξη Δεδομένων Δομής ΠΙ • Ανακαλύπτει ενδιαφέρουσα γνώση από υπερσυνδέσμους μεταξύ ιστοσελίδων του ΠΙ. • Εφαρμογές : Μηχανές Αναζήτησης, Ανακάλυψη Κοινοτήτων κτλ.
Εξόρυξη Δεδομένων Δομής ΠΙ • Social Network Analysis (friendship network) • Web Search and Search Engines • PageRank • HITS • Community Discovery
Εξόρυξη Δεδομένων Ειδικού Σκοπού • Data Mining and Audience Intelligence for Advertising (ADKDD 2012) • Multimedia Data Mining (MDM/KDD 2012) • Knowledge Discovery on the Web (WebKDD 2012) • Knowledge Discovery from Sensor Data (Sensor-KDD 2012)
Εξόρυξη Δεδομένων Ειδικού Σκοπού • Data Mining in Bioinformatics (BIOKDD 2012) • Data Mining using Matrices and Tensors (KDD 2012) • Large-Scale Recommender Systems (KDD 2012) • Social Network Mining and Analysis (SNA-KDD 2012) • ASONAM • RecSys • PKDD
ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης http://delab.csd.auth.gr/~symeon