Data Mining 2. Vorlesung

Data Mining2. Vorlesung Georg Pölzlbauer 15. Mai 2007 poelzlbauer@ifs.tuwien.ac.at

Thematisch verwandte (aufbauende) Lehrveranstaltungen • SS 188.464, Data Mining, 2 VO • WS 181.191, Machine Learning, 2 VU • WS 188.413, Selbstorganisierende Systeme, 3 VU • SS 188.412, Information Retrieval, 3 VU

Weiterführende Themen • Data Mining Tutorials: http://www.autonlab.org/tutorials/ • WS 183.425, Statistische Mustererkennung, 2 VO + 2 UE • SS 107.284, AKSTA Advanced Regression and Classification, 2 VU

Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

I. Visualisierung von Daten • Daten sind meist hochdimensional • Scatterplot kann nur 2 Variablen darstellen • Scatterplot Matrix kann beliegig viele Dimensionen darstellen • wird aber schnell unübersichtlich

Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Scatterplot

I. Beispiel 3D http://noppa5.pc.helsinki.fi/koe/3d3.html

I. Scatterplot Matrix: 3 Dimensionen

I. Scatterplot Matrix: 8 Dimensionen

I. Hauptkomponentenanalyse • Principal Component Analysis (PCA) • Sucht (& findet) die "interessanteste" 2-dimensionale Projektion • "Interessant": Richtung mit der höchsten Varianz

Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Varianz s2 s1

I. Beispiel PCA -> Kamera

I. PCA: Theorie • wird aus Kovarianzmatrix berechnet (=> Problem mit Ausreißern) • Eigenvektoren/Eigenwerte werden gebildet • Eigenvektoren mit höchsten Eigenwerten sind Hauptkomponenten • Neue Achsen haben keinen semantischen Sinn mehr

Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Beispiel Hauptkomponenten

II. Problemstellung

II. Problemstellung Training Modell

II. Problemstellung Training Modell Vorhersage

II. Begriffsdefinition • bei ML muss ein kategorisches Attribut vorhergesagt werden (kontinuierlich = Regression) • Synonyme: • Überwachtes Lernen (Supervised Learning) • Klassifikation • Machine Learning (ML) • (Prediction)

Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) II. Beispiel

III. k-Nearest Neighbors (1) • Einfaches Lernverfahren, bei dem kein Modell gebildet wird • Die Trainingsdaten werden zum Klassifizieren verwendet (lazy learning) • Hyperparameter: k ist die Anzahl der nächsten Nachbaren, die betrachtet werden um die Klasse zu ermitteln

III. k-Nearest Neighbors (2) • wenn es nur 2 Klassen gibt sollte k ungerade sein • wird bei einer hohen Anzahl an Samples ineffizient • ist stark von der Skalierung abhängig

III. Beispiel kNN

III. Beispiel kNN ?

III. Beispiel kNN: k = 1

IV. Binäre Decision Trees • Bauen auf Informationstheorie auf (Shannon) • Sind ein rekursiver Algorithmus bei dem der Eingaberaum bei jedem Schritt in 2 Teile gespalten wird • Klassifizierung: Baum wird von der Wurzel an abgearbeitet bis ein Blatt erreicht wird

IV. Decision Trees: Beispiel

IV. Informationstheorie, Entropie • Von Claude Shannon • Anwendungen u.a. in Datenkompression • Mißt Informationsgehalt und Redundanz • Informationsgehalt wird in Bits gemessen

IV. Was ist „Entropie“? • In ML ist Entropie ein Maß für die Unreinheit eines Datensets • Hohe Entropie: • schlecht für Klassifizierung • muß reduziert werden • Formel für Entropie H von Datensatz X:

IV. Berechnung von H(X)

IV. H(X): Fallbeispiele p(xred) p(xblue) H(X) I 0.5 0.5 1 II 0.3 0.7 0.88 III 0.7 0.3 0.88 IV 0 1 0

IV. H(X): Relative und absolute Häufigkeiten vs. => H(X1) = H(X2) Nur relative Häufigkeiten sind relevant!

IV. Information Gain Information Gain: Untergruppen, die die Entropie am stärksten verringern Gegeben: Datenset und 3 verschiedene Möglichkeiten zur Unterteilung, wie entscheidet man am besten? H(X) = 1

IV. Informatin Gain (Eigenschaften) • IG ist höchstens so groß wie die Entropie vor der Teilung • IG ist der Wert um den Entropie durch Teilung verringert werden kann • IG ist mindestens 0 (falls die Entropie nicht reduziert werden kann) • 0 <= IG <= H(X)

IV. Decision Trees Algorithmus • Datenset: Kategorische oder quantitative Variable • Für jede Dimension, für jeden möglichen Split wird IG berechnet • Kategorisch: Eine gegen den Rest • Quantitativ: Sortieren, dann zwischen allen möglichen Werten trennen • Rekursion bis nicht mehr geteilt werden kann

IV. Decision Trees: Quantitative Varible 0.07 0.00 0.01 0.03 0.08 0.03 0.00 0.00 0.01 0.13 0.06 original H: 0.99 0.17 0.01 0.11 0.43 0.26 0.06 0.13 0.05 0.29 0.28 0.09 0.16

IV. Decision Trees: Beispiel

IV. Decision Trees: Klassifikation

IV. Decision Trees: Mehr als 2 Klassen

IV. Decision Trees: Nicht-binäre Bäume

IV. Decision Trees: Overfitting Vollständige Decision Trees sind meistens zu komplex

IV. Decision Trees: Trainingsende • Mögliche Kriterien zur Unterbrechung der Rekursion: • Anzahl der Samples ist gering (unter einem Schwellwert) • Entropie ist gering • IG ist gering • statistische Tests (Chi-Quadrat) etc. • Schwellwerte sind Hyperparameter

Data Mining 2. Vorlesung

Data Mining 2. Vorlesung

Presentation Transcript

Chapter 2 Data Mining

Data Mining: Data

Data Mining: Data

Data Mining: Proses Data Mining

Data Mining: Proses Data Mining

DATA MINING LECTURE 2

Data Mining: Data

Data Mining: Data

2. Vorlesung

Data Mining 2

Data Mining: Data

DATA MINING L ecture #2

Qué es Data Mining 2

MODUL 2 DATA WAREHOUSE DAN DATA MINING

Data Mining: Data

Statistical Data Mining - 2

Mining Data Streams (Part 2)

Data Mining: Data

Lecturette 2: Mining Classroom Data

Data Mining: Data

Data Mining – Day 2