1 / 9

Globaler Ansatz

Globaler Ansatz. Hough-Transformation stammt aus Computer-Graphik 2-dimensional (Bild-Verarbeitung) Verallgemeinerung auf d -dimensionale Räume Übertragung des Clustering in einen neuen Raum (“Parameter-Raum” der Hough-Transformation) Einschränkung des Suchraumes

carrington
Download Presentation

Globaler Ansatz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Globaler Ansatz • Hough-Transformation • stammt aus Computer-Graphik • 2-dimensional (Bild-Verarbeitung) • Verallgemeinerung auf d-dimensionale Räume • Übertragung des Clustering in einen neuen Raum (“Parameter-Raum” der Hough-Transformation) • Einschränkung des Suchraumes (von nicht-abzählbar unendlich auf O(n!)) • übliche Suchheuristik für Hough-Transformation: O(2d) •  effiziente Suchheuristik! Zimek: Correlation Clustering

  2. Hough-Transformation • gegeben: • gesucht: lineare Unterräume, in denen viele Punkte liegen • Idee: Abbildung von Punkten im Datenraum (Bild-Raum) auf Funktionen im Parameter-Raum y  p1 x  picture space parameter space  Zimek: Correlation Clustering

  3. d-dimensionale Polarkoordinaten • ei, 1  i  d: Orthonormal-Basis • x = (x1,…,xd)T: d-dimensionaler Vektor auf Hypersphäre um den Ursprung mit Radius r • ui: Einheitsvektor in Richtung der Projektion von x auf den Unterraum span(ei,…,ed) • 1,…,d-1: i Winkel zwischen ui und ei span(e2,e3) e3 x u2 e2 u3 u1 2 1 3=0 e1 Zimek: Correlation Clustering

  4. Parametrisierungsfunktion Länge des Normalenvektors mit mit den Winkeln 1,…,d-1 für die Gerade durch Punkt p: y  s f p3 p3 f p2 p2 f p1 p1 (s,s) s s x  picture space parameter space Zimek: Correlation Clustering

  5. Eigenschaften der Transformation • Punkt im Datenraum  Sinusoid im Parameterraum • Punkt im Parameterraum  Hyperebene im Datenraum • Punkte auf gemeinsamer Hyperebene im Datenraum  Sinusoide mit gemeinsamem Schnittpunkt im Parameterraum • Schnitt von Sinusoiden im Parameterraum  Hyperebene durch die entsprechenden Punkte im Datenraum Zimek: Correlation Clustering

  6. Correlation Clustering mittels Hough-Transformation • dichte Regionen im Parameterraum  lineare Strukturen im Datenraum (Hyperebenen mit   d-1) • exakte Lösung: Bestimmung aller Schnittpunkte • nicht durchführbar • zu exakt • approximative Lösung: Grid-basiertes Clustering im Parameterraum  finde Zellen, die von mindestens m Sinusoiden geschnitten werden • Suchraum begrenzt, aber in O(rd) • möglichst reine Cluster erfordern großes r (Auflösung des Grids) Zimek: Correlation Clustering

  7. Algorithmus CASH:effiziente Suchheuristik CASH: Clustering in Arbitrary Subspaces based on the Hough-Transform [SIAM DM08, special issue SAM] • Parameterraum wird rekursiv achsenweise geteilt mit einer festen Ordnung der Achsen [1, … , d-1,  ] • Fortsetzung immer mit dem Hyperquader, der die meisten Punkte repräsentiert (Prioritätssuche) Zimek: Correlation Clustering

  8. Algorithmus CASH:effiziente Suchheuristik • Hyperquader, die weniger als m Punkte repräsentieren, können ausgeschlossen werden  frühzeitiges Ende des Suchpfades • Hyperquader, die nach s rekursiven Teilungen von mindestens m Sinusoiden geschnitten werden, repräsentieren ein Correlation Cluster (mit   d-1) • Punkte des Clusters (bzw. entsprechende Sinusoide) werden aus allen anderen Hyperquadern entfernt • rekursive Untersuchung des Clusters nach Transformation in den entsprechenden d-1-dimensionalen Unterraum, um Correlation Cluster mit   d-2 etc. zu finden Zimek: Correlation Clustering

  9. Algorithmus CASH:Eigenschaften • findet beliebige Anzahl von Clustern • Benutzerangaben: • Suchtiefe (Anzahl der Splits  maximale Größe einer Cluster-Zelle/Genauigkeit) • Mindestdichte einer Zelle ( minimale Anzahl von Punkten im Cluster) • Dichte einer Zelle bezüglich Parameterraum beruht nicht auf der “locality assumption” für Datenraum  globales Verfahren für Correlation Clustering • Suchheuristik skaliert linear in Anzahl der Punkte, aber durchschnittlich mit ~ d3 • ABER: worst case-Degeneration zu vollständiger Aufzählung (exponentiell in d) ist theoretisch möglich Zimek: Correlation Clustering

More Related