1 / 34

Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den Kultur-, Geschichts- und Geowissenschaften. Otto-Friedrich-Universität Bamberg. Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008.

Download Presentation

Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lehrstuhl für Angewandte Informatik in denKultur-, Geschichts- und Geowissenschaften Otto-Friedrich-Universität Bamberg Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

  2. Angela Schwering (2008). Approaches to Semantic Similarity Measurement for Geo-Spatial Data: A Survey, Transactions in GIS Vol. 12 Issue 1 Page 5 February 2008 Reading Club - Similarity

  3. Teil 1Similarity: Geometrisches Modell Teil 2Verfahren zur Clusteranalysen Teil 3Kritische Schlussbemerkungen Reading Club - Similarity

  4. Allgemeine Eigenschaften • Koordinatensystem • Objekte (Instanzen) als Punkte in einem n-dimensionalen Raum (Koordinatensystem) • Ähnlichkeit definiert als nicht-negative Zahl einer metrischen Distanzfunktion (a,b) • Axiome • Minimality (a,b) ≥ (a,a) = 0 • Symmetry (a,b) = (b,a) • Triangle inequality (a,b) + (b,c) ≥ (a,c) Reading Club - Similarity

  5. Distanzmaße • Metrische Merkmale • Minkowski-Metrik: • Euklidischer Abstand (r = 2) • City Block-Distanz/ Manhattan-Distanz (r=1) • (intervall- und verhältnisskalierte Merkmale) • Nicht-metrische Merkmale • Variablen werden in binäre Form transformiert • Z.B. ordinalskalierte Variablen: Werte unterhalb des Medians die 0 und oberhalb 1 • (nominale und ordinale Merkmale) Reading Club - Similarity

  6. Nicht-Metrische Merkmale • Distanzmaß • Konstanten • Tanimoto:  = 0,  = 1 • Dice:  = 0,  = 1/2 • Simple Matching (M):  = 1,  = 1 • Russel-Rao (RR) • Usw. Reading Club - Similarity

  7. Teil 1Similarity: Geometrisches Modell Teil 2Verfahren zur Clusteranalysen Teil 3Kritische Schlussbemerkungen Reading Club - Similarity

  8. Partitionierende Clusteranalysen • Allgemein • Feste Zielgröße von k Cluster • Optimierungskriterium, so dass möglichst gute Partition der n Objekte in die k Cluster erfolgt • Zufällige Anfangsverteilung der n Objekte zu den k Clustern • Iterative Verfahren • Clusterzugehörigkeit revidierbar • Optimierungskriterium • Global • Partiell Reading Club - Similarity

  9. Iterativ-globale Verfahren • Allgemein • 1.) Anfangspartition mit k Cluster (Initiierungsphase) • 2.) Prüfe, ob sich durch verschieben jedes einzelnen Objektes die Zielfunktion verbessert. Berechne Centroide neu. (Iterationsphase) • 3.) Wiederhole Schritt zwei so lange bis sich keine Verbesserung der Zielfunktion mehr ergibt (Iterationsphase) • Initiierungsphase • Zuordnung nach Eingabereihenfolge • Erste k oder zufällige Stichprobe an Objekten als Startzentren; Zuordnung anschließend nach euklidischer Distanz • Ergebnis einer Clusteranalyse als Startpunkt für eine Zweite • Usw. Reading Club - Similarity

  10. Globale Optimierungskriterien • Totale Streuungsmatrix • T (totale Dispersionsmatrix) • Varianz der m Variablen, bzw. die Kovarianz zwischen je zwei Variablen der n Objekte • T ist vom Typ m x m • Innerhalb eines Clusters: • Zwischen Cluster: • T = W + B Reading Club - Similarity

  11. Skalarbildende Transformation • Spur W • z(P) = Spur(W)  Minimum • Summer der Diagonalelemente der Matrix W für eine Partition P • Spur T = Spur W + Spur B • Varianzkriterium, Spur W-Kriterium, Abstabds-quadratkriterium • Determinante W • z(P) = Det(W)  Minimum • Maß der Heterogenität der einzelnen Cluster • Skaleninvariant • Berücksichtigt Variablenkorrelation Reading Club - Similarity

  12. Reading Club - Similarity

  13. Iterativ-partielle Verfahren • Allgemein • 1.) Anfangspartition • 2.) Berechne Clusterzentren • 3.) Verschiebe jedes Objekt in ein Cluster mit minimaler Entfernung (Distanz) • 4.) Fahre bei Schritt zwei fort oder Beende nach einem Abbruchkriterium • Clusterzentren berechnen • Abhängig vom verwendeten Distanzmaß • Quadrierte euklidische Distanz = Clustercentroid • City-Block-Metrik = Vektor der Mediane der Meßwerteverteilung auf den m Merkmalen Reading Club - Similarity

  14. Neuberechnung der Schwerpunkte • Varianten • Alle Objekte dem nächsten Cluster zugewiesen (voller Iterationszyklus) • Bei jeder Zuweisung eines Objekts zum nächsten Cluster • K-means Algorithmus • Berechnung der Centroide nach jeder Neuzuweisung • Ausreißer und Objekte zwischen zwei benachbarten Clustern problematisch • Variante (MacQueen, 1967) mit Parameter C („coarsening“) und R („refinment“) Reading Club - Similarity

  15. Ashbrook/Starner - k-means Ashbrook, D. and Starner, T. 2003. Using GPS to learn significant locations and predict movement across multiple users. Personal Ubiquitous Comput. 7, 5 (Oct. 2003), 275-286. Reading Club - Similarity

  16. K-mediods Algorithmus • Allgemein • Clusterzentren sind jetzt nicht mehr „künstliche“ Centroide sondern echte Objekte in der untersuchenden Datenmenge • Medoid: Objekt mit dem geringsten Abstand zu allen anderen Objekten in einem Cluster • Z.B. Partitioning Around Medoids (PAM) • 1.) Anfangspartition • 2.) Berechne Medoide • 3.) Verschiebe jedes Objekt in ein Cluster mit minimaler Entfernung (Distanz) • 4.) Fahre bei Schritt zwei fort oder Beende anhand eines Abbruchkriteriums Reading Club - Similarity

  17. Beispiel Tung, A. K., Hou, J., and Han, J. 2001. Spatial Clustering in the Presence of Obstacles. In Proceedings of the 17th international Conference on Data Engineering (April 02 - 06, 2001). IEEE Computer Society, Washington, DC, 359-367. Reading Club - Similarity

  18. Hierarchische Clusteranalysen • Allgemein • Optimierung der Clusterbildung, d.h. eine optimale Aufteilung der Objekte auf Cluster wird angestrebt • Nicht-Revidierbarkeit eines Objektes zu einem Cluster • Hierarchische Struktur darstellbar in einem Dendrogramm Reading Club - Similarity

  19. Hierarchisch-agglomerative Verfahren • Allgemein • 0.) Distanzmatrix • 1.) Feinste Partition; Jedes Objekt ein Cluster • 2.) Suche die Cluster mit der kleinsten Distanz • 3.) Fusioniere die zwei gefundenen Cluster • 4.) Berechne die Distanzmatrix neu • 5.) Beende n-1 Fusion (alle Objekte in einem Cluster) oder gehe zu Schritt zwei • Inter-Cluster-Distanz • Allgemein Formel: • Distanz des durch die Fusion der Cluster p und q entstandenen Clusters t zu einem beliebigen Cluster r Reading Club - Similarity

  20. Fusionsstrategien (1) • Single-Linkage • Complete-Linkage Reading Club - Similarity

  21. Beispiel: Single-Linkage = Reading Club - Similarity

  22. Fusionsstrategien (2) • Centroid-Verfahren • Group-Average Inversionsproblem Reading Club - Similarity

  23. Fusionsstrategien (3) • Median-Verfahren • Flexible Strategie Reading Club - Similarity

  24. Fusionsstrategien (4) • Wards-Verfahren Reading Club - Similarity

  25. Reading Club - Similarity

  26. Fusionsstrategien (5) • Entropieanalyse Reading Club - Similarity

  27. Hierarchisch-divise Verfahren • Anmerkungen • Idee: Cluster auf geschickte Art und Weise zu zerteilen • Nur für kleine Datenmengen praktikabel • Divisiv-polythetische Verfahren • Alle Variablen werden simultan betrachtet • Divisiv-monothetische Verfahren • Nur eine Variable wird betrachtet • Meistens binäre Variablen Reading Club - Similarity

  28. Divisiv-polythetische Verfahren • Dissimilarity Analysis • 1.) Für jedes Objekt wird die Distanz zu dem aus den übrigen n-1 Objekten bestehenden Cluster (Cr) berechnet ( ) • 2.) Das Objekt mit dem größten Distanzwert bildet den Anfang neues Cluster (Cs) • 3.) Für jedes der n-1 Objekte in Cr wird die Distanz zu den n-2 in Cr verbliebenen Objekten und Cs bestimmt • 4.) Objekt mit Maximalem kommt von Cr nach Cs • 5.) Wiederhole bis kein Objekt mehr in Cr vorhanden ist • 6.) Beginne bei Schritt drei oder Abbruchkriterium Reading Club - Similarity

  29. Divisiv-monothetische Verfahren • Assoziationsanalyse • Für binäre Variablen • Nimm jenes Merkmal, dass den größten Anteil an der Gesamtvarianz aller Merkmale besitzt • 1.) Bestimme für jedes Paar von Variablen und eine 2 x 2 Kontingenzmatrix und berechne: • 2.) Division nach dem Merkmal für das gilt: Reading Club - Similarity

  30. Sonstiges (1) • Graphentheoretische Verfahren • Menge A von Objekten wird als vollständiger Graph betrachtet, dessen Kanten (oi, oj) mit Distanzen dij bewertet sind • Entferne aus dem Minimalgerüst dieses Graphen für d > 0 die Kanten mit einer Bewertung dij > d • Vergleichbar mit Single-Linkage Reading Club - Similarity

  31. Sonstiges (2) • Statistische Modellansätze • … Reading Club - Similarity

  32. Teil 1Similarity: Geometrisches Modell Teil 2Verfahren zur Clusteranalysen Teil 3Kritische Schlussbemerkungen Reading Club - Similarity

  33. Allgemeines Geometrisches Modell • Axiome • Minimality (a,b) ≥ (a,a) = 0 • Symmetry (a,b) = (b,a) • Triangle inequality (a,b) + (b,c) ≥ (a,c) • Gegenbeispiele • Gilmore, Hersh, Camarazza and Griffin (1979) Buchstabe M wurde öfter als H erkannt als als M • „North Korea is like Red China“ - „Red China is like North Korea “ • Tversky (1977): Jamaica is similar to Cuba (geographisch); Cuba is similar to Russia (politisch), but Jamaica and Russia are not similar at all Reading Club - Similarity

  34. Vielen Dank für die Aufmerksamkeit! Fragen? Reading Club - Similarity

More Related