1.09k likes | 1.22k Views
Data Mining 2. Vorlesung. Georg Pölzlbauer 15. Mai 2007 poelzlbauer@ifs.tuwien.ac.at. Thematisch verwandte (aufbauende) Lehrveranstaltungen. SS 188.464, Data Mining, 2 VO WS 181.191, Machine Learning, 2 VU WS 188.413, Selbstorganisierende Systeme, 3 VU
E N D
Data Mining2. Vorlesung Georg Pölzlbauer 15. Mai 2007 poelzlbauer@ifs.tuwien.ac.at
Thematisch verwandte (aufbauende) Lehrveranstaltungen • SS 188.464, Data Mining, 2 VO • WS 181.191, Machine Learning, 2 VU • WS 188.413, Selbstorganisierende Systeme, 3 VU • SS 188.412, Information Retrieval, 3 VU
Weiterführende Themen • Data Mining Tutorials: http://www.autonlab.org/tutorials/ • WS 183.425, Statistische Mustererkennung, 2 VO + 2 UE • SS 107.284, AKSTA Advanced Regression and Classification, 2 VU
Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines
Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines
I. Visualisierung von Daten • Daten sind meist hochdimensional • Scatterplot kann nur 2 Variablen darstellen • Scatterplot Matrix kann beliegig viele Dimensionen darstellen • wird aber schnell unübersichtlich
Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Scatterplot
I. Beispiel 3D http://noppa5.pc.helsinki.fi/koe/3d3.html
I. Hauptkomponentenanalyse • Principal Component Analysis (PCA) • Sucht (& findet) die "interessanteste" 2-dimensionale Projektion • "Interessant": Richtung mit der höchsten Varianz
Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Varianz s2 s1
I. Beispiel PCA -> Kamera
I. PCA: Theorie • wird aus Kovarianzmatrix berechnet (=> Problem mit Ausreißern) • Eigenvektoren/Eigenwerte werden gebildet • Eigenvektoren mit höchsten Eigenwerten sind Hauptkomponenten • Neue Achsen haben keinen semantischen Sinn mehr
Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Beispiel Hauptkomponenten
Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Beispiel Hauptkomponenten
Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines
II. Problemstellung Training Modell
II. Problemstellung Training Modell Vorhersage
II. Begriffsdefinition • bei ML muss ein kategorisches Attribut vorhergesagt werden (kontinuierlich = Regression) • Synonyme: • Überwachtes Lernen (Supervised Learning) • Klassifikation • Machine Learning (ML) • (Prediction)
Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) II. Beispiel
Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines
III. k-Nearest Neighbors (1) • Einfaches Lernverfahren, bei dem kein Modell gebildet wird • Die Trainingsdaten werden zum Klassifizieren verwendet (lazy learning) • Hyperparameter: k ist die Anzahl der nächsten Nachbaren, die betrachtet werden um die Klasse zu ermitteln
III. k-Nearest Neighbors (2) • wenn es nur 2 Klassen gibt sollte k ungerade sein • wird bei einer hohen Anzahl an Samples ineffizient • ist stark von der Skalierung abhängig
Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines
IV. Binäre Decision Trees • Bauen auf Informationstheorie auf (Shannon) • Sind ein rekursiver Algorithmus bei dem der Eingaberaum bei jedem Schritt in 2 Teile gespalten wird • Klassifizierung: Baum wird von der Wurzel an abgearbeitet bis ein Blatt erreicht wird
IV. Informationstheorie, Entropie • Von Claude Shannon • Anwendungen u.a. in Datenkompression • Mißt Informationsgehalt und Redundanz • Informationsgehalt wird in Bits gemessen
IV. Was ist „Entropie“? • In ML ist Entropie ein Maß für die Unreinheit eines Datensets • Hohe Entropie: • schlecht für Klassifizierung • muß reduziert werden • Formel für Entropie H von Datensatz X:
IV. H(X): Fallbeispiele p(xred) p(xblue) H(X) I 0.5 0.5 1 II 0.3 0.7 0.88 III 0.7 0.3 0.88 IV 0 1 0
IV. H(X): Relative und absolute Häufigkeiten vs. => H(X1) = H(X2) Nur relative Häufigkeiten sind relevant!
IV. Information Gain Information Gain: Untergruppen, die die Entropie am stärksten verringern Gegeben: Datenset und 3 verschiedene Möglichkeiten zur Unterteilung, wie entscheidet man am besten? H(X) = 1
IV. Informatin Gain (Eigenschaften) • IG ist höchstens so groß wie die Entropie vor der Teilung • IG ist der Wert um den Entropie durch Teilung verringert werden kann • IG ist mindestens 0 (falls die Entropie nicht reduziert werden kann) • 0 <= IG <= H(X)
IV. Decision Trees Algorithmus • Datenset: Kategorische oder quantitative Variable • Für jede Dimension, für jeden möglichen Split wird IG berechnet • Kategorisch: Eine gegen den Rest • Quantitativ: Sortieren, dann zwischen allen möglichen Werten trennen • Rekursion bis nicht mehr geteilt werden kann
IV. Decision Trees: Quantitative Varible 0.07 0.00 0.01 0.03 0.08 0.03 0.00 0.00 0.01 0.13 0.06 original H: 0.99 0.17 0.01 0.11 0.43 0.26 0.06 0.13 0.05 0.29 0.28 0.09 0.16
IV. Decision Trees: Overfitting Vollständige Decision Trees sind meistens zu komplex
IV. Decision Trees: Trainingsende • Mögliche Kriterien zur Unterbrechung der Rekursion: • Anzahl der Samples ist gering (unter einem Schwellwert) • Entropie ist gering • IG ist gering • statistische Tests (Chi-Quadrat) etc. • Schwellwerte sind Hyperparameter