370 likes | 498 Views
Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 5 ο Φροντιστήριο. Αντωνέλλης Παναγιώτης adonel@ceid.upatras.gr Σκούρα Αγγελική skoura@ceid.upatras.gr. Βασικοί Στόχοι της Εξόρυξης Δεδομένων. Classification : predicting an item class Clustering : finding clusters in data
E N D
Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 5ο Φροντιστήριο Αντωνέλλης Παναγιώτης adonel@ceid.upatras.gr Σκούρα Αγγελική skoura@ceid.upatras.gr
Βασικοί Στόχοι της Εξόρυξης Δεδομένων • Classification: predicting an item class • Clustering: finding clusters in data • Associations: e.g. A & B & C occur frequently • Visualization: to facilitate human discovery • Summarization: describing a group • Deviation Detection: finding changes • Estimation: predicting a continuous value • Link Analysis: finding relationships • …
Data Mining • Data Mining is an interdisciplinary field involving: • – Databases • – Statistics • – Machine Learning • – High Performance Computing • – Visualization • – Mathematics
Κατηγοριοποίηση (Classification) • Σκοπός: Learn a method for predicting the instance classfrom pre-labeled (classified) instances • Συνήθεις Τεχνικές: • Δέντρα Αποφάσεων (Decision Trees) • Νευρωνικά Δίκτυα (Neural Networks) • K-πλησιέστερων γειτόνων (k-Nearest Neighbors, k-NN) • Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) • Bayesian μέθοδοι • Στηρίζονται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)
Συσταδοποίηση (Clustering) • Σκοπός: Find “natural” grouping ofinstances given un-labeled data • Συνήθεις Τεχνικές: • Διαιρετικοί αλγόριθμοι (K-Means) • Ιεραρχικοί αλγόριθμοι (Cure) • Βασισμένοι σε γράφους αλγόριθμοι (Chameleon) • Βασισμένοι στην πυκνότητα (DBSCAN) • Βασισμένοι σε πλέγμα (WaveCluster) • Στηρίζονται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)
Classification VS Clustering Classification Clustering • Supervised Learning • Unsupervised Learning
Οπτικοποίηση (Visulization) • Σκοπός: Η οπτικοποίηση των δεδομένων για να διευκολυνθεί η κατανόηση συσχετίσεων • Π.χ. Self-Organizes Maps (SOMs) • SOMs are commonly used as visualization aids. They can make it easy for us humans to see relationships between vast amounts of data • A SOM has been used to classify statistical data describing various quality-of-life factors such as state of health, nutrition, educational services etc.
Οπτικοποίηση (Visulization) • Countries with similar quality-of-life factors end up clustered together. The countries with better quality-of-life are situated toward the upper left and the most poverty stricken countries are toward the lower right. Each hexagon represents a node in the SOM.
Οπτικοποίηση (Visulization) • This colour information can then be plotted onto a map of the world like so:
Τεχνικές Κατηγοριοποίησης • Συνήθεις Τεχνικές: • Συσχέτιση (Regression) • Δέντρα Απόφασης (Decision Trees) • Νευρωνικά Δίκτυα (Neural Networks) • K-πλησιέστερων γειτόνων (k-Nearest Neighbors, k-NN) • Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) • Bayesian μέθοδοι • Εργαλείο Weka • Attribute-Relation File Format (ARFF)
3) Νευρωνικά Δίκτυα • Οι νευρώνες είναι το δομικό στοιχείο του δικτύου. Υπάρχουν δύο είδη νευρώνων, οι νευρώνες εισόδου και οι υπολογιστικοί νευρώνες. • Οι νευρώνες εισόδου δεν υπολογίζουν τίποτα, μεσολαβούν ανάμεσα στις εισόδους του δικτύου και τους υπολογιστικούς νευρώνες. • Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν τις εισόδους τους με τα συναπτικά βάρη και υπολογίζουν το άθροισμα του γινομένου. Το άθροισμα που προκύπτει είναι το όρισμα της συνάρτησης μεταφοράς. • Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: • βηματική (step), • γραμμική (linear), • μη γραμμική (non-linear), • στοχαστική (stochastic).
4) k-πλησιέστεροι γείτονες • The k-NN Rule: If the number of pre-classified points is large it makes good sense to use, instead of the single nearest neighbor, the majority vote of the nearest k neighbors. This method is referred to as the k-NN rule. • The number k should be:1) large to minimize the probability of misclassifying x2) small (with respect to the number of samples) so that the points are close enough to x to give an accurate estimate of the true class of x • Παραλλαγές: Weighted K-nn
5) Μηχανές Διανυσμάτων Υποστήριξης • Οι Μηχανές Υποστήριξης Διανυσμάτων είναι μια μέθοδος μηχανικής μάθησης για δυαδικά προβλήματα ταξινόμησης • Προβάλλουν τα σημεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο τάξεων • Τα άγνωστα σημεία ταξινομούνται σύμφωνα με την πλευρά του υπερεπίπεδου στην οποία βρίσκονται • Τα διανύσματα τα οποία ορίζουν το υπερεπίπεδο που χωρίζει τις δύο τάξεις ονομάζονται διανύσματα υποστήριξης (supportvectors)
6) Bayesian Μέθοδοι • Βασίζεται στη πιθανοτική θεωρία κατηγοριοποίησης του κανόνα του Bayes • Στόχος είναι να κατηγοριοποιηθεί ένα δείγμα Χ σε μια από τις δεδομένες κατηγορίες C1,C2,..,Cn χρησιμοποιώντας ένα μοντέλο πιθανότητας που ορίζεται σύμφωνα με τη θεωρία του Bayes • Πρόκειται για κατηγοριοποιητές που κάνουν αποτίμηση πιθανοτήτων και όχι πρόβλεψη • Αυτό πολλές φορές είναι πιο χρήσιμο και αποτελεσματικό • Εδώ οι προβλέψεις έχουν έναν βαθμό και σκοπός είναι το αναμενόμενο κόστος να ελαχιστοποιείται
Σύγκριση Βασικών Μεθόδων Κατηγοριοποίησης
Μετρικές Ακρίβειας • Sensitivity or true positive rate (TPR) eqv. with hit rate, recall TPR = TP / P = TP / (TP + FN) • False positive rate (FPR) eqv. with fall out FPR = FP / N = FP / (FP + TN) • Accuracy ACC = (TP + TN) / (P + N) • Positive predictive value (PPV) eqv. with precision PPV = TP / (TP + FP)
F - score • The F score can be interpreted as a weighted average of the precision and recall, where an F score reaches its best value at 1 and worst score at 0. • The traditional F-measure or balanced F-score (F score) is the harmonic mean of precision and recall:
Overfitting/Overtraining in supervised learning (e.g. neural network). Training error is shown in blue, validation error in red. If the validation error increases while the training error steadily decreases then a situation of overfitting may have occurred.