1 / 66

Bau effizienter und effektiver Metasuchmaschinen

Bau effizienter und effektiver Metasuchmaschinen. von Daniel Weichert FU-Berlin WS 03/04. Definition.

stevie
Download Presentation

Bau effizienter und effektiver Metasuchmaschinen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bau effizienter und effektiver Metasuchmaschinen von Daniel Weichert FU-Berlin WS 03/04

  2. Definition „Eine Meta-Suchmaschine ist eine Suchmaschine, deren wesentliches Merkmal darin besteht, dass sie eine Suchanfrage an mehrere andere Suchmaschinen weiterleitet, die Ergebnisse sammelt und aufbereitet…“ (www.net-lexikon.de) Global Interface Search Engine Search Engine Search Engine FU-Berlin

  3. Übersicht (1) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin

  4. Vorteile von Metasuchmaschinen • Erreichung höherer Internet-Abdeckung • Vorteile der Skalierbarkeit durch Nutzung kleinerer (Spezial-)Suchmaschinen • Einfachere Benutzung bei „verstreuten Daten“ • Effizienteres Aussortieren nicht relevanter Dokumente FU-Berlin

  5. Übersicht (2) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin

  6. Generelle Probleme durch unterschiedliche Suchmaschinen • Indexierungsmethode • Dokument-Term-Gewichtung • Anfrage-Term-Gewichtung • Vergleichs-Funktion • Dokument-Datenbank • Dokument-Version • Unvergleichbarkeit untereinander und proprietäres Unwissen FU-Berlin

  7. Übersicht (3) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin

  8. Aufbau einer Metasuchmaschine„Architektur“ (1) User 1 User Interface 2 Database Selector Search Engine Search Engine FU-Berlin

  9. Aufbau einer Metasuchmaschine„Database Selector“ • Auswahl nur sinnvoller Suchmaschinen • bei großer Suchmaschinenzahl • bei geringer Anzahl auszugebender Ergebnisse • Ressourceneinsparung • bei Anfrage-Weiterleitung in MSM-Umgebung • bei Anfrage-Auswertung in Komponenten-Suchmaschine • durch weniger Netz-Verkehr • bei Rückgabe-Auswertung in MSM-Umgebung FU-Berlin

  10. Aufbau einer Metasuchmaschine„Architektur“ (2) User 1 User Interface 2 Database Selector 3 3 Document Selector Search Engine Search Engine FU-Berlin

  11. Aufbau einer Metasuchmaschine„Document Selector“ • Auswahl zurückzugebender Dokumente • Direkte Beeinflussung der Rückgabe-Anzahl • Vergleich gegen einen „Ähnlichkeits-Grenzwert“ • Maximale Anzahl sinnvoller Dokumente • Minimale Anzahl unnützer Dokumente • Durchführung für jede ausgewählte Suchmaschine FU-Berlin

  12. Aufbau einer Metasuchmaschine„Architektur“ (3) User 1 User Interface 2 Database Selector 3 3 Document Selector 4 Query Dispatcher 5 5 Search Engine Search Engine FU-Berlin

  13. Aufbau einer Metasuchmaschine„Query Dispatcher “ • Verbindungsaufbau zu Komponenten-Suchmaschinen • HTTP-Anfrage-Methode (GET/POST) • Suchanfrage-Format • Verändern der Suchanfrage • (Relative) Gewichtung der Anfrage-Terme • Anzahl der zurückzugebenden Dokumente FU-Berlin

  14. Aufbau einer Metasuchmaschine„Architektur“ (4) User 1 8 User Interface 2 Database Selector 7 3 3 Document Selector 4 Result Merger Query Dispatcher 6 5 5 Search Engine Search Engine FU-Berlin

  15. Aufbau einer Metasuchmaschine„Result Merger “ • Verschmelzung der Rückgabe-Ergebnisse in sinnvoller Weise • EINE Liste mit Ergebnissen • Beachtung der Dokument-Rückgabezahl der MSM • Bewertung (ranking) auf Basis einer globalen Vergleichsfunktion (gegeben durch MSM) FU-Berlin

  16. Aufbau einer Metasuchmaschine„Architektur“ (5) User 1 8 User Interface 2 Database Selector 7 3 3 Document Selector 4 Result Merger Query Dispatcher 6 5 5 Search Engine Search Engine FU-Berlin

  17. Übersicht (4) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin

  18. Einzelne MSM-Komponenten„Übersicht“ (1) • Suchmaschinen-Auswahl (database selection) • Dokument-Auswahl (document selection) • Ergebnis-Verschmelzung (result merging) FU-Berlin

  19. Einzelne MSM-Komponenten„Database Selection“ (1) • Auswahl nur nützlicher Datenbanken mit Hilfe von • einfachen Repräsentanten • statistischen Repräsentanten • lern-basierten Methoden FU-Berlin

  20. Database Selection„Einfache Repräsentanten“ (1) • Text-Beschreibung des Datenbank-Inhalts • Oftmals manuell erstellt • Vergleich Anfrage – Beschreibung • Verschiedene Techniken • Beschreibung des DB-Inhalts • Fachgebiets-Angabe plus Anfrage • Restrukturierung der Anfrage • Automatisch erstellte Repräsentanten (Bsp.: Termvektoren als Repräsentanten) FU-Berlin

  21. Database Selection„Einfache Repräsentanten“ (2) Beispiele: NetSerf topic: country synset: [nation, nationality, land, country, a_people] synset: [state, nation, country, land, common-wealth, res_publica, body_politic] synset: [country, state, land, nation] info-type: facts ALIWEB Template-Type: DOCUMENT Title: Perl URI: /public/perl/perl.html Description: Information on the Perl Programming Language. Includes a local Hypertext Perl Manual, and the latest FAQ in Hypertext. Keywords: perl, perl-faq, language Author-Handle: m.koster@nexor.co.uk FU-Berlin

  22. Database Selection„Einfache Repräsentanten“ (3) • Vorteile • Einfache Handhabung • Ressourcenschonend • Einsetzbar bei hoch spezialisierten Datenbanken • Nachteile • Datenbank-Beschreibung unzureichend • Eventuell Eingriff des Nutzers nötig bei DB-Auswahl • Nicht gut einsetzbar bei umfassenden DB FU-Berlin

  23. Einzelne MSM-Komponenten„Database Selection“ (2) • Auswahl nur nützlicher Datenbanken mit Hilfe von • einfachen Repräsentanten • statistischen Repräsentanten • lern-basierten Methoden FU-Berlin

  24. Database Selection„Statistische Repräsentanten“ (1) • Nutzung detaillierter Informationen einer KSM • über Dokument-Frequenz jedes Terms • über Durchschnitts-Gewicht eines Terms über alle Dokumente … • Vorteil • Hohe Genauigkeit in Bestimmung der Ähnlichkeiten von Dokumenten zu einer Anfrage in einer KSM • Nachteil • Skalierbarkeit nicht immer optimal FU-Berlin

  25. Database Selection„Statistische Repräsentanten“ (2) • Methoden • Relative KSM-Bewertung • Relativer KSM-Ranking-Wert • Absolute KSM-Bewertung • Unabhängiger Ranking-Wert • Schätzung der Anzahl nützlicher Dokumente • Schätzung der globalen Ähnlichkeit des der Anfrage am ähnlichsten Dokumentes FU-Berlin

  26. Statistische Repräsentanten „Ähnlichstes Dokument“ (1) • Definition: Eine Menge von M Datenbanken ist optimal gewichtet [D1, D2, …, DM], wenn es ein k gibt, sodass D1, D2, …, Dk die m ähnlichsten Dokumente beinhalten und jede Di (1<= i <= k) mindestens eines der m Dokumente enthält. • Bedingung: msim(q, D1) > msim(q, D2) > … msim(q, Di) = Globaler Vergleichswert des der Anfrage ähnlichsten Dokumentes • Auswahl der ersten k KSMs FU-Berlin

  27. Statistische Repräsentanten„Ähnlichstes Dokument“ (2) • Bestimmung von msim(q, D): • Zwei Repräsentanten • Global: Globales inverses Dokument-Frequenz-Gewicht gidfi für jeden Term ti • Lokal: Wertepaar (mnwi, anwi) mit mnwi = Maximales normalisiertes Gewicht von ti anwi = Durchschnittliches normalisiertes Gewicht von ti Normalisiertes Gewicht = di / |d| di = Gewicht von Term ti in Dokument d |d| = Länge von Dokument d FU-Berlin

  28. Statistische Repräsentanten„Ähnlichstes Dokument“ (3) • Anfrage-Vektor q = (q1, q2, …, qk) msim(q, D) = • Links: Anfrage-ähnlichstes Dokument hat Maximumgewicht des i-ten Anfrage-Terms • / |q|: Normalisierung von msim • Sortierung der KSMs nach msim(q, D) FU-Berlin

  29. Statistische Repräsentanten„Ähnlichstes Dokument“ (4) • Einfache Anpassung bei Wort-zusammenhängen • Maximales normalisiertes Gewicht dominiert • üblicherweise um 2 oder mehr Ordnungen • wegen Einberechnungen der Null-Werte im durchschnittlichen Gewicht • Einschränkung der Formel für msim(q, D) auf msim(q, D) = max1<=i<=k {qi * ami} mit ami = gidfi * mnwi [Angepasstes normalisiertes Gewicht] FU-Berlin

  30. Einzelne MSM-Komponenten„Database Selection“ (3) • Auswahl nur nützlicher Datenbanken mit Hilfe von • einfachen Repräsentanten • statistischen Repräsentanten • lern-basierten Methoden FU-Berlin

  31. Database Selection„Lern-basierte Methoden“ • Nutzenbestimmung einer Datenbank durch Erfahrungswerte • Verschiedene Techniken • Statisches Lernen • MRDD (modeling relevant document distribution) • Dynamisches Lernen • Ranking-Wert-Bestimmung u.a. durch „Maus-Klicks“ • Kombination aus statischem und dynamischem Lernen FU-Berlin

  32. Statisches Lernen„MRDD“ (1) • Bilden einer Menge von Trainings-Anfragen • Weiterleitung der T-Anfragen an alle KSM • Bilden eines Verteilungs-Vektors aus relevanten Dokumenten pro T-Anfrage und KSM • Identifikation der relevanten Dokumente aus Rückgabeliste • Aufbau: Pro VV-Dimension Anzahl zu holender Dokumente für nächstes relevantes Dokument FU-Berlin

  33. Statisches Lernen„MRDD“ (2) • Vergleich Benutzer-Anfrage/Trainings-Anfragen • Bestimmung der k ähnlichsten T-Anfragen • Pro KSM Errechnung eines Durchschnitts-Verteilungs-Vektors der k T-Anfragen • Nutzung dieser Durchschnittsvektoren zur KSM-Auswahl mit Blick auf Precision-Maximierung FU-Berlin

  34. Statisches Lernen„MRDD“ (3) • Beispiel (Aufbau eines Verteilungsvektors): Für T-Anfrage wurden 100 Dokumente in KSM gefunden (d1, d2, …, d100) [in dieser Reihenfolge] Relevante Dokumente: d1, d6, d20, d88 Verteilungsvektor: {1, 6, 20, 88} FU-Berlin

  35. Statisches Lernen„MRDD“ (4) • Beispiel-Fortsetzung (KSM-Auswahl): Durchschnitts-Vektoren: D1: {1, 4, 6, 7, 10, 12, 17} D2: {3, 5, 7, 9, 15, 20} D3: {2, 3, 6, 9, 11, 16} Anzahl auszugebender Dokumente: m = 3 Dokumentzahl pro KSM: m1 = 1; m3 = 3 => Precision = 0,75 KSM-Auswahl: D1, D3 FU-Berlin

  36. Suchmaschinen-Auswahl„Zusammenfassung“ • Einfache Repräsentanten • Statistische Repräsentanten • „Ähnlichstes Dokument“ • Lern-basierte Methoden • MRDD FU-Berlin

  37. Einzelne MSM-Komponenten„Übersicht“ (2) • Suchmaschinen-Auswahl (database selection) • Dokument-Auswahl (document selection) • Ergebnis-Verschmelzung (result merging) FU-Berlin

  38. Einzelne MSM-Komponenten„Document Selection“ • Einschränkung der Ergebnis-Dokumenten-Anzahl • Entscheidung durch Benutzer • (Datenbank-)Gewichtete Auswahl • Lern-basierte Methoden • Garantierte Rückgabe (guaranteed retrieval) FU-Berlin

  39. Document Selection„Benutzer-Entscheidung“ • Benutzer-Entscheidung über Maximalanzahl der Rückgabe-Dokumente pro KSM • Vorteil • Einfachst-Implementierung • Nachteile • Nur bei kleiner KSM-Zahl und großem Wissen über selbige günstig • Uneffektiv, wenn Dokument-Anzahl pauschal angegeben (pro KSM Dokumente) FU-Berlin

  40. Document Selection„Gewichtete Auswahl“ • Mehr Dokumente von gewichtigeren (nach ‚database selection‘) KSM • Basierend auf ‚ranking score‘ oder ‚db rank‘ • Vorteile • Einfache Implementierung • Vernünftige Grundlage • Nachteil • Möglicherweise zu wenig nützliche Dokumente FU-Berlin

  41. Document Selection„Lern-basierte Methoden“ • Rückblick auf Retrieval-Erfahrungen • MRDD (modeling relevant document distribution) • QC (query clustering) FU-Berlin

  42. Document Selection„Lern-basiertes Query Clustering“ (1) • Trainingsphase mit „Übungs-Anfragen“ • Clustering dieser Anfragen innerhalb jeder KSM Anfragen Rückgabe-Dokumente Cluster T-Anfrage 1 Dokument A, Dokument C, Dokument D T-Anfrage 1 T-Anfrage 2 T-Anfrage 2 Dokument B, Dokument C, Dokument D T-Anfrage 3 Dokument E, Dokument F, Dokument G T-Anfrage 3 T-Anfrage 5 T-Anfrage 4 Dokument E, Dokument H, Dokument I T-Anfrage 4 T-Anfrage 5 T-Anfrage 5 Dokument E, Dokument F, Dokument I FU-Berlin

  43. Document Selection„Lern-basiertes Query Clustering“ (2) • Bilden des Durchschnittsvektors (centroid) der Anfrage-Vektoren pro Cluster • Gewichtung der Cluster auf Basis • der Durchschnitts-Anzahl der relevanten Dokumente • aus den besten T ausgegebenen Dokumenten • Clustergewicht ~ ‚Precision‘ der Anfragen innerhalb des Clusters FU-Berlin

  44. Document Selection„Lern-basiertes Query Clustering“ (3) • Wahl des Clusters pro KSM nach Ähnlichkeit mit Benutzer-Anfrage m.H. des ‚centroid‘ • Nutzung aller ausgewählten Cluster-Gewichtungen zur Dokument-Auswahl Dokumentanzahl aus KSM Di = m = Gesamtzahl zurückzugebender Dokumente wi = Gewicht des Anfrage-Clusters von Di N = Anzahl der KSMs FU-Berlin

  45. Document Selection„Lern-basiertes Query Clustering“ (4) • Vorteile • Gute Ergebnisse bei großer Ähnlichkeit von Trainings- und Benutzer-Anfragen • Nachteile • Schlechte Anpassungsfähigkeit des Verfahrens • Schwierige Auswahl der Trainings-Anfragen • Großer Zeitaufwand beim Filtern der relevanten Dokumente bei hoher Zahl von Trainings-Anfragen FU-Berlin

  46. Document Selection„Garantierte Rückgabe“ • Mitbetrachtung der globalen Vergleichsfunktionen • Umgehung von KSM-Unterschiedlichkeits-Problemen • Effektivitäts-Steigerung bei Filterung nützlicher und unnützer Dokumente • Ziel: Rückgabe aller nützlichen bei Minimierung von nutzlosen Dokumenten • Methoden • Anfrage-Modifikation • Berechnung des kleinsten lokalen Grenzwertes FU-Berlin

  47. Garantierte Rückgabe„Anfrage-Modifikation“ • Veränderung der Anfrage vor Weiterleitung an KSM • Ziel: Rückgabe der KSM-Dokumente in Reihenfolge der globalen Ähnlichkeiten • Nachteile • Nicht jede Kombination von lokalen und globalen Vergleichs-Funktionen möglich • Wissen über Vergleichs-Funktion und Term-Gewichtungs-Formel nötig FU-Berlin

  48. Garantierte Rückgabe„Kleinster lokaler Grenzwert“ • Finden eines Ähnlichkeits-Grenzwertes pro KSM, bei dem • alle relevanten Dokumente ausgegeben werden • keine unnützen Dokumente zurückgegeben werden • Nachteile • Lösungsfindung für jedes Globale-Lokale-Vergleichsfunktions-Paar einzeln • Lösung existiert nicht immer FU-Berlin

  49. Dokument-Auswahl„Zusammenfassung“ • Benutzer-Entscheidung • Gewichtete Auswahl • Lern-basierte Methoden • Query Clustering • Garantierte Rückgabe FU-Berlin

  50. Einzelne MSM-Komponenten„Übersicht“ (3) • Suchmaschinen-Auswahl (database selection) • Dokumenten-Auswahl (document selection) • Ergebnis-Verschmelzung (result merging) FU-Berlin

More Related