1 / 12

Cluster-

Projekt. Cluster-. Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002. Was ist Cluster-X ?. Cluster-X. ist eine Windows-Anwendung. fasst thematisch ähnliche Dokumente zu Clustern zusammen.

ken
Download Presentation

Cluster-

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projekt Cluster- Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

  2. Was ist Cluster-X ? Cluster-X... • ist eine Windows-Anwendung • fasst thematisch ähnliche Dokumente zu Clustern zusammen • ermöglicht die Ausweitung einer bool´schen Suche • verwendet hierzu den Oh!™ Algorithmus(Oh!™ = Orphan Hunting! & Topic Merging)

  3. Entwicklung • Cluster-X wurde in C++ unter MS-Windows entwickelt • Es wurde Wert auf kurze Laufzeiten gelegt • Verwendete Bibliotheken: - MFC für die GUI - selbst entwickelte Matrix- & Vektorklassen

  4. Die Architektur Korpus IRPreProcess SearchResults ClusterView DocTermMatrix IRBoolSearch DisplayEngine TermList DocumentList IRCluster Cluster

  5. Die Technik • Oh!™ basiert auf dem k-Means Algorithmus • Dieser wird durch verschiedene Elemente erweitert TopicMerging OrphanHunting k-Means Oh!™

  6. k-Means Erzeuge k ZV Ordne DV zufällig den ZV zu Berechne neue ZV Ordne DV den jeweils ähnlichsten ZV zu Neuzuordnung? Ja Nein Termination ZV = Zentroidvektor DV = Dokumentvektor

  7. Topic Merging Orphan Hunting Oh!™-Algorithmus Erzeuge n ZV (n = Anz. der Dok.) Exisitieren 2 ähnliche ZV? Ja Lösche den nun leeren ZV Ordne jedem ZV genau einen DV zu Nein Berechne neue ZV Übertrage DV in ähnlichen ZV Diese beiden Vorgänge werden nur ausgeführt, wenn eine festgesetzte Ähnlichkeit überschritten wird Ordne DV den jeweils ähnlichsten ZV zu Lösche den nun leeren ZV • ZV mit nur einem zug. DV? Ja Ordne DV dem nächst ähnlichen ZV zu Nein Neuzuordnung? Ja Termination Nein

  8. Datenstrukturen • Für Cluster-X wurden 3 angepasste Datentypen verwendet • CVector<TYPE> • (Hilfsklasse für Operationen mit Vektoren) • CMatrix<TYPE> • (Speicherung der Zentroiden) • CSparseDataMatrix<TYPE> • (Speicherung der Dokument-Term-Matrix)

  9. SparseDataMatrix • CSparseDataMatrix<TYPE> ist auf Speicherung von Matrizen mit überwiegend nicht verwendeten Elementen zugeschnitten (0-Werte) Originalmatrix SparseDataMatrix • Beispielersparniss:Dokument-Term-Matrix (Bibel-Korpus) • Originalmatrix: >10.000 KByte  SparseDataMatrix: 880 KByte

  10. Nun zur Praxis... Ihre Optionen: 1) Cluster-X starten 2) Zigarettenpause

  11. Probleme & ToDo • Extrem hohe Speicherbelastung •  Temporäre Berechnung der ZV •  Latent Semantic Indexing (SVD) • Korpusabhängige Idealparameter • evtl. mashine learning Methoden (user feedback) • Parameterabhängige Laufzeiten (worst case: O(n²)) •  Lösung N/A (algorithmusinhärent)

  12. The End... Dozentin: Priv.-Doz. Dr. Karin Haenelt Ort: Seminar für Computerlinguistik / Uni Heidelberg Veranstaltung: Information Retrieval (WS2001/02)

More Related