1 / 33

5. Mining in hochdimensionalen Daten

5. Mining in hochdimensionalen Daten. Inhalt dieses Kapitels 5.1 Einführung Motivation, Überblick 5.2 Dimensionsreduktion Grundlagen, Techniken, Diskussion 5.3 Projected Clustering Grundlagen, Techniken, Diskussion 5.4 Subspace Clustering Grundlagen, Techniken, Diskussion

eilis
Download Presentation

5. Mining in hochdimensionalen Daten

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 5. Mining in hochdimensionalen Daten • Inhalt dieses Kapitels • 5.1 Einführung Motivation, Überblick • 5.2 Dimensionsreduktion Grundlagen, Techniken, Diskussion • 5.3 Projected Clustering Grundlagen, Techniken, Diskussion • 5.4 Subspace Clustering Grundlagen, Techniken, Diskussion • 5.5 CCCC: Computing Correlation Connected Clusters Grundlagen, Techniken, Diskussion

  2. ... ... 5.1 Einführung • „Reale Daten sind meist sehr hochdimensional“ • Beispiel: • Clustering von Fernsehbildern • Fernsehbilder werden in Farbhistogramme zerlegt • Je nach Farbauflösung erhält man ca. 100-1.000 dimensionale Feature-Vektoren pro Bild • Biologie: Clustering von Microarray Daten • Ein Feature entspricht z.B. einem Gen im menschlichen Körper • Man erhält 20.000 dimensionale Vektoren

  3. Einführung • Probleme für das Data Mining • Eine hohe Anzahl an irrelevanten Attributen (Features) „verwischt“ die Klassen • Je mehr Features, desto höher die Wahrscheinlichkeit irrelevanter Features • „Fluch der Dimensionalität“ (Curse of Dimensionality) • Distanz zum nächsten Nachbarn unterscheidet sich • im Hochdimensionalen kaum von der Distanz zu einem • beliebigen Nachbarn • Klassen in verschiedenen Unterräumen • Für zwei Klassen können zwei verschiedene Mengen an Attributen relevant/irrelevant sein

  4. A C 3 2 1 2 4 5 3 4 5 6 1 6 B D Einführung • Beispiele Keine Cluster im gesamten Featurespace, aber in Unterräumen Punkte unterschiedlich geclustert in verschiedenen Unterräumen

  5. Einführung • Konsequenzen für die Klassifikation • Nicht so schlimm, da Klassen bereits bekannt und irrelevante Features als auch entsprechende Unterräume anhand der Trainingsdaten leichter erkannt werden können. • Konsequenzen für das Clustering • Cluster sind a priorinicht bekannt, daher auch nicht die irrelevanten Features oder die entsprechenden Unterräume der Cluster • Viele (speziell distanzbasierte) Clusterverfahren sind für hochdimensionale Daten unbrauchbar • Grund: „übliche“ Distanzfunktionen (z.B. Lp-Normen) berücksichtigen alle Feature gleich stark

  6. Einführung • Übersicht: Clustering hochdimensionaler Daten • Dimensionsreduktion / Attributsselektion • Projected Clustering • Subspace Clustering • Clustering mit Correlation-Connections

  7. 5.2 Dimensionsreduktion • Idee: • Daten-Vorverarbeitung: Reduktion der Dimensionalität durch Selektion der (für das Clustering) relevanten Features • Verwende Datensatz mit reduzierter Dimensionalität zum Clustern • Allgemein: • Gegeben: n Datenpunkte (Featurevektoren) X = {x1,...,xn} mit Dimensionalität d • Gesucht: Transformation der Datenpunkte in (d-k)-dimensionale Featurevektoren, so daß der dabei gemachte Fehler möglichst klein ist • Einfacher Ansatz: • Abgeleitete Attribute (Summe, Durchschnitt, etc.) statt urspr. Attribute - erfordert Expertenwissen - kaum automatisierbar (+) teilweise gute Ergebnisse (hängt vom Experten ab)

  8. Dimensionsreduktion • Hauptachsentransformation (PCA) • Ziel: Rotiere den Datenraum so, dass • die Abhängigkeiten zwischen den Merkmale verschwinden • Abstände und Winkel der Vektoren erhalten bleiben • Gesucht ist also... • eine orthonormale Abbildung, • die die Richtung stärkster Varianz auf die erste Achse abbildet • die Richtung zweitstärkster Varianz auf die zweite usw.

  9. Dimensionsreduktion • Wir beginnen mit der Kovarianz-Matrix: S = SxÎD(x-m)(x-m)T • Die Matrix wird zerlegt in • eine Orthonormalmatrix V = [e1,...,ed] (Eigenvektoren) • und eine Diagonalmatrix L = diag (l1,...,ld) (Eigenwerte) • so dass gilt: S = V L VT • Bei Weglassen von k Basisvektoren ej entsteht ein neuer Unterraum. Die Transformation der Vektoren aus X in diesen neuen Unterraum hat den quadratischen Fehler: •  Wähle die k Eigenvektoren mit den kleinsten Eigenwerten

  10. Dimensionsreduktion • Dimensionsreduktion via PCA • Berechne Kovarianzmatrix S • Berechne Eigenwerte und Eigenvektoren von S • Bestimme die k kleinsten Eigenwerte und „lösche“ deren Eigenvektoren • Die resultierenden Eigenvektoren bilden die Basis für den neuen Unterraum (ggf. kann diese Basis durch unitäre Transformationen in eine andere Basis desselben Unterraumes umgewandelt werden) • Entwickle die Vektoren der Daten X = {x1,...,xn} nach dieser neuen Unterraumbasis:  Resultierende Daten Y = {y1,...,yn} sind (d-k)-dimensional

  11. 3 Daten: X = { (-3,-2), (-2,-1), (-1,0), (0,1), (1,2), (2,3) (-2,-2), (-1,-1), (0,0), (1,1), (2,2) (-2,-3), (-1,-2), (0,-1), (1,0), (2,1), (3,2) } 2 1 0 -1 -2 -3 -2 -1 0 1 2 3 Kovarianzmatrix: Eigenwerte und Eigenvektoren: Transformierte Daten Y = { (-3.53), (-2.12), (-0.71), (0.71), (2.12), (3.53) (-2.82), (-1.41), (0.0), (1.41), (2.82) (-3.53), (-2.12), (-0.71), (0.71), (2.12), (3.53) } 0 Dimensionsreduktion • Beispiel

  12. Dimensionsreduktion • Diskussion + Mathematisch fundiert - transformierte Daten sind nur schwer interpretierbar (Unterraum ist nicht notwendigerweise achsenparallel) - Informationen der „gelöschten“ Dimensionen werden nicht berücksichtigt • Weitere Verfahren • Wavelet-Transformation • (diskrete) Fourier-Transformation • (diskrete) Cosinus-Transformation

  13. 5.3 Projected Clustering • Beobachtung: • Dimensionsreduktion ist zu unflexibel • Cluster können in verschiedenen Unterräumen des Feature-Raumes existieren • Idee des Projected Clusterings: • Jeder Cluster darf in einem speziellen Unterraum liegen • Ermittle Paare (Ci, Si) wobei: • Ci ist die Menge der Punkte, die zu Cluster i gehören • Si ist der Unterraum, in dem Ci existiert, d.h. ein Clusteringkriterium ist optimal erfüllt

  14. Projected Clustering • PROCLUS [Aggarwal & Procopiuc 1999] • Erweitert k-Medoid Verfahren CLARANS um die Idee, jedem Cluster seinen entsprechenden Unterraum zuzuordnen • Verwendet Manhattan Distanz (L1) geteilt durch die Unterraumdimension, um Objekt-Distanzen aus verschiedenen Unterräumen „objektiv“ zu vergleichen • Benötigt Anzahl der Cluster k und durchschnittliche Dimension der Cluster l als Eingabe Phase 1 Initialisierung: Bestimmen der initialen Medoide durch „Greedy“-Methode auf DB-Sample • Beginne mit einem zufälligen Medoid • Wähle den weitest entferntesten Punkt zu allen bisherigen Medoiden als neuen Medoid bis k Medoide ausgewählt sind.

  15. Projected Clustering Phase 2 Iteration: Optimierung der Medoide und der Cluster-Unterräume • Medoid-Optimierung wie bei CLARANS • Unterraumoptimierung: di = minimale Distanz des Medoiden mi zu allen anderen Medoiden Li = {Punkte, die zu mi einen kleineren Abstand als di haben} Xi,j = durchschnittliche Distanz aller Punkte aus Li zu mi in Dimension j Je kleiner Xi,j desto näher liegen die Punkte in Li,j entlang Dimension j bei mi Wähle Unterräume Si, so dass insgesamt k . l Dimensionen zu den Medoiden zugeordnet wurden (Greedy-Verfahren) Zuordnung der Punkte zu den mi unter Berücksichtigung der ausgewählten Si

  16. x z Q P x z Q Q Q P P P y y y y Projected Clustering • Diskussion • Nachteile lokal optimierender Verfahren wie k-Medoids • Konvergiert evtl. nur gegen ein lokales Minimum • Eingabeparameter k schwer zu bestimmen • Anfällig gegen Rauschen • Berechnet nur konvexe Cluster • Weitere Nachteile: • Inputparameter l schwer zu bestimmen • Findet nur achsenparallele Projektionen

  17. Projected Clustering • ORCLUS [Aggarwal & Yu 2000] • Verbesserung von PROCLUS • Verwendet k-Means statt k-Medoid Ansatz • Berechnet Unterräume, die nicht achsenparallel sind • Verwendet Korrelationsmatrix, um für jeden Cluster die Eigenvektoren mit den kleinsten Eigenwerten zu berechnen • Eingabe: k Anzahl der Cluster, l durchschnittliche Dimensionalität der Cluster-Unterräume • Ergebnis: k Cluster (Ci) mit zugeordneten Eigenvektoren (Si) • Probleme: • Nachteile von k-Means • Input-Parameter l • Laufzeit: O (l3 + l . n . d + l2 + d3)

  18. 5.4 Subspace Clustering • Beobachtung: • Projected Clustering Methoden finden Cluster in verschiedenen Unterräumen • ABER: Punkte können in verschiedenen Unterräumen in verschiedenen Clustern liegen • Idee des Subspace Clusterings: • Berechne Clustering für mehrere Unterräume • Vollständige Suche ist nicht effizient (O (2d) mögliche Unterräume) • Daher: Finde alle (möglichst viele) Unterräume, in denen Cluster liegen

  19. Subspace Clustering • CLIQUE[Agrawal, Gehrke, Gunopulos & Raghavan 1998] • 1. Identifikation von Unterräumen mit Clustern • 2. Identifikation von Clustern • Cluster: „dichtes Gebiet“ im Datenraum • Dichte-Grenzwert t Region ist dicht, wenn sie mehr als t Punkte enthält Region = Gitterzelle • Gitterbasierter Ansatz • jede Dimension wird in Intervalle aufgeteilt • Cluster ist Vereinigung von verbundenen dichten Regionen

  20. Subspace Clustering • Identifikation von Unterräumen mit Clustern • Aufgabe: Entdecken dichter Regionen • Greedy-Algorithmus (Bottom-Up), ähnlich wie Apriori-Algorithmus bei der Warenkorbanalyse: • beginne mit der leeren Menge • nehme jeweils eine Dimension dazu • Grundlage dieses Algorithmus: Monotonie-Eigenschaft wenn eine Region R im k-dimensionalen Raum dicht ist, dann ist auch jede Projektion von R in einen (k-1)-dimensionalen Unterraum dicht • Umkehrung: Wenn eine (k-1)-dimensionale Region R nicht dicht ist, sind alle k-dimensionalen Regionen, die R als Projektion besitzen, nicht dicht.

  21. 2-dim. dichte Regionen • 3-dim. Kandidaten-Region • 2-dim. Region, die geprüft werden muß Subspace Clustering • Beispiel • auch die Regionen, die in Unterräumen dicht sind, müssen noch auf der DB gezählt werden (enthalten sie wirklich mehr als t Punkte?) • heuristische Reduktion der Anzahl der Kandidaten-Regionen

  22. Subspace Clustering • Identifikation von Clustern • Aufgabe: Finden maximaler Mengen verbundener dichter Regionen • Gegeben: alle dichten Regionen in demselben k-dimensionalen Unterraum • „depth-first“-Suche in folgendem Graphen (Suchraum) Knoten: dichte Regionen Kanten: gemeinsame Hyperflächen / Dimensionen der beiden dichten Regionen • Laufzeitkomplexität dichte Regionen im Hauptspeicher (z.B. Hashbaum) für jede dichte Region 2 k Nachbarn zu prüfen •  Zahl der Zugriffe zur Datenstruktur: O (2 .k .n)

  23. Laufzeit in Abhängigkeit von n Laufzeit in Abhängigkeit von d Subspace Clustering • Experimentelle Untersuchung • Laufzeitkomplexität von CLIQUE • linear in n, superlinear in d

  24. Subspace Clustering • Diskussion • + automatische Entdeckung von Unterräumen mit Clustern • + automatische Entdeckung von Clustern • + keine Annahme über die Verteilung der Daten • + Unabhängigkeit von der Reihenfolge der Daten • + gute Skalierbarkeit mit der Anzahl n der Datensätze • - Genauigkeit des Ergebnisses hängt vom Parameter ab • - braucht eine Heuristik, um den Suchraum aller Teilmengen der Dimensionen einzuschränken •  findet u.U. nicht alle Unterräume mit Clustern

  25. Subspace Clustering • Erweiterungen von CLIQUE • ENCLUS[Cheng, Fu & Zhang 1999] • Unterschied zu CLIQUE: Anderes Dichtekriterium für Regionen: Entropie H(X)fürMenge von Regionen H(X) = xXd(x) . log d(x) (d(x) Anteil der Datenpunkte in Region x) • Entropie verhält sich ebenfalls monoton • MAFIA[Goil, Nagesh & Choudhary 1999] • Adaptives Gitter  weniger Regionen variabler Größe • Finde Regionen, die um Faktor  dichter sind als der erwartete Durchschnitt (relativ zum Volumen) • Keine Monotonie-Eigenschaft, daher Brute-Force Navigation durch den Suchraum aller möglichen Unterräume

  26. C1 C2 Subspace Clustering • RIS[Kailing, Kriegel, Kröger & Wanka 2003] • Motivation: • Nachteil der gitterbasierten Ansätze Wahl von und  Cluster für  = 4 (ist C2 Cluster?) Für  > 4: keine Cluster (insb. C1 geht verloren!)  Verwende dichte-basiertes Clustering

  27. density Anzahl size Subspace Clustering • Idee: • Cluster enthalten mindestens einen Kernpunkt • Anzahl der Kernpunkte ist proportional zur • Anzahl der verschiedenen Cluster und/oder • Größe der Cluster und/oder • Dichte der Cluster

  28. Subspace Clustering • Algorithmus SUBCLU: • Berechne für jeden Punkt p der Datenbank die Unterräume, in denen p noch Kernpunkt ist  Berechnet alle relevanten Unterräume • Sammle für jeden berechneten Unterraum statistische Informationen um über die „Interessantheit“ des Unterraumes entscheiden zu können  Qualität der Unterräume (z.B. Anzahl der Kernpunkte)  Sortierung der Unterräume nach „Interessantheit“ möglich • Entferne Unterräume, die redundante Informationen enthalten  Cluster in einem Unterraum S sind in allen Unterräumen T  S enthalten

  29. Subspace Clustering • Schritt 1 • Suche Unterräume, die mindestens einen Kernpunkt enthalten: • Erschöpfende Suche wieder O (2d) • Lemma (Monotonie der Kernpunkteigenschaft): Wenn p ein Kernpunkt in Featureraum S ist, dann ist p auch ein Kernpunkt in allen Unterräumen T S Wenn p in T kein Kernpunkt ist, kann p auch in allen ST kein Kernpunkt sein.  Verwende Apriori-Algorithmus (Warenkorbanalyse)

  30. Subspace Clustering • Schritt 2 • Qualität der gefundenen Unterräume: • count[S] = Summe (der Anzahl) aller Punkte, die in der -Nachbarschaft aller Kernpunkte eines Unterraumes S liegen • NaiveQuality(S) = count[S] – Kernpunkte(S) • Anzahl der erwarteten Punkte in einer -Nachbarschaft sinkt mit steigender Dimension • NaiveQuality favorisiert niedrig dimensionale Unterräume • Skalierung in Abhängigkeit der Dimensionalität: • Periodische Randbedingungen um Punkte, die am Rand des Datenraumes liegen, nicht zu benachteilen

  31. Subspace Clustering • Schritt 3 • Entfernen redundanter Unterräume: • „Überflüssige“ Unterräume: • Cluster im Raum S haben eine Projektion in Unterräumen von S • Durch die Hinzunahme von irrelevanten Dimensionen muß ein Cluster zunächst noch nicht verschwinden • Pruning-Schritte: • Abwärts-Pruning: Wenn es einen (k-1)-dimensionalen Unterraum S mit einer höheren Qualität als ein k-dimensionaler Unterraum T (T S) gibt, lösche T. • Aufwärts-Pruning: Wenn der Count-Wert eines echten (k-1)-dimensionaler Unterraumes von S „besonders stark“ vom Mittelwert der Count-Werte aller echten (k-1)-dimensionalen Unterräume von S abweicht, lösche S

  32. Laufzeit in Abhängigkeit von d Laufzeit in Abhängigkeit von n Laufzeit in Abhängigkeit der Samplegröße Subspace Clustering • Experimentelle Untersuchung Skaliert superlinear in n und d  Random Sampling auch bei kleinen Samplegrößen hohe Qualität

  33. Subspace Clustering • Diskussion • Vorteile: • Findet alle Unterräume, in denen beliebig geformte Cluster existieren • Cluster können durch Anwendung beliebiger Clusteringverfahren erzeugt werden (DBSCAN und OPTICS wegen gleicher/ähnlicher Formalisierung zu empfehlen) • Mathematisch fundierte Kriterien für die Parameterwahl • Verbesserungsmöglichkeiten: • Parameterwahl von  bestimmt indirekt die Dimensionalität der gefundenen Unterräume • Basiert auf der Idee der flachen dichte-basierten Dekomposition  hierarchische Cluster ???

More Related