90 likes | 227 Views
Globaler Ansatz. Hough-Transformation stammt aus Computer-Graphik 2-dimensional (Bild-Verarbeitung) Verallgemeinerung auf d -dimensionale Räume Übertragung des Clustering in einen neuen Raum (“Parameter-Raum” der Hough-Transformation) Einschränkung des Suchraumes
E N D
Globaler Ansatz • Hough-Transformation • stammt aus Computer-Graphik • 2-dimensional (Bild-Verarbeitung) • Verallgemeinerung auf d-dimensionale Räume • Übertragung des Clustering in einen neuen Raum (“Parameter-Raum” der Hough-Transformation) • Einschränkung des Suchraumes (von nicht-abzählbar unendlich auf O(n!)) • übliche Suchheuristik für Hough-Transformation: O(2d) • effiziente Suchheuristik! Zimek: Correlation Clustering
Hough-Transformation • gegeben: • gesucht: lineare Unterräume, in denen viele Punkte liegen • Idee: Abbildung von Punkten im Datenraum (Bild-Raum) auf Funktionen im Parameter-Raum y p1 x picture space parameter space Zimek: Correlation Clustering
d-dimensionale Polarkoordinaten • ei, 1 i d: Orthonormal-Basis • x = (x1,…,xd)T: d-dimensionaler Vektor auf Hypersphäre um den Ursprung mit Radius r • ui: Einheitsvektor in Richtung der Projektion von x auf den Unterraum span(ei,…,ed) • 1,…,d-1: i Winkel zwischen ui und ei span(e2,e3) e3 x u2 e2 u3 u1 2 1 3=0 e1 Zimek: Correlation Clustering
Parametrisierungsfunktion Länge des Normalenvektors mit mit den Winkeln 1,…,d-1 für die Gerade durch Punkt p: y s f p3 p3 f p2 p2 f p1 p1 (s,s) s s x picture space parameter space Zimek: Correlation Clustering
Eigenschaften der Transformation • Punkt im Datenraum Sinusoid im Parameterraum • Punkt im Parameterraum Hyperebene im Datenraum • Punkte auf gemeinsamer Hyperebene im Datenraum Sinusoide mit gemeinsamem Schnittpunkt im Parameterraum • Schnitt von Sinusoiden im Parameterraum Hyperebene durch die entsprechenden Punkte im Datenraum Zimek: Correlation Clustering
Correlation Clustering mittels Hough-Transformation • dichte Regionen im Parameterraum lineare Strukturen im Datenraum (Hyperebenen mit d-1) • exakte Lösung: Bestimmung aller Schnittpunkte • nicht durchführbar • zu exakt • approximative Lösung: Grid-basiertes Clustering im Parameterraum finde Zellen, die von mindestens m Sinusoiden geschnitten werden • Suchraum begrenzt, aber in O(rd) • möglichst reine Cluster erfordern großes r (Auflösung des Grids) Zimek: Correlation Clustering
Algorithmus CASH:effiziente Suchheuristik CASH: Clustering in Arbitrary Subspaces based on the Hough-Transform [SIAM DM08, special issue SAM] • Parameterraum wird rekursiv achsenweise geteilt mit einer festen Ordnung der Achsen [1, … , d-1, ] • Fortsetzung immer mit dem Hyperquader, der die meisten Punkte repräsentiert (Prioritätssuche) Zimek: Correlation Clustering
Algorithmus CASH:effiziente Suchheuristik • Hyperquader, die weniger als m Punkte repräsentieren, können ausgeschlossen werden frühzeitiges Ende des Suchpfades • Hyperquader, die nach s rekursiven Teilungen von mindestens m Sinusoiden geschnitten werden, repräsentieren ein Correlation Cluster (mit d-1) • Punkte des Clusters (bzw. entsprechende Sinusoide) werden aus allen anderen Hyperquadern entfernt • rekursive Untersuchung des Clusters nach Transformation in den entsprechenden d-1-dimensionalen Unterraum, um Correlation Cluster mit d-2 etc. zu finden Zimek: Correlation Clustering
Algorithmus CASH:Eigenschaften • findet beliebige Anzahl von Clustern • Benutzerangaben: • Suchtiefe (Anzahl der Splits maximale Größe einer Cluster-Zelle/Genauigkeit) • Mindestdichte einer Zelle ( minimale Anzahl von Punkten im Cluster) • Dichte einer Zelle bezüglich Parameterraum beruht nicht auf der “locality assumption” für Datenraum globales Verfahren für Correlation Clustering • Suchheuristik skaliert linear in Anzahl der Punkte, aber durchschnittlich mit ~ d3 • ABER: worst case-Degeneration zu vollständiger Aufzählung (exponentiell in d) ist theoretisch möglich Zimek: Correlation Clustering