660 likes | 763 Views
Bau effizienter und effektiver Metasuchmaschinen. von Daniel Weichert FU-Berlin WS 03/04. Definition.
E N D
Bau effizienter und effektiver Metasuchmaschinen von Daniel Weichert FU-Berlin WS 03/04
Definition „Eine Meta-Suchmaschine ist eine Suchmaschine, deren wesentliches Merkmal darin besteht, dass sie eine Suchanfrage an mehrere andere Suchmaschinen weiterleitet, die Ergebnisse sammelt und aufbereitet…“ (www.net-lexikon.de) Global Interface Search Engine Search Engine Search Engine FU-Berlin
Übersicht (1) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin
Vorteile von Metasuchmaschinen • Erreichung höherer Internet-Abdeckung • Vorteile der Skalierbarkeit durch Nutzung kleinerer (Spezial-)Suchmaschinen • Einfachere Benutzung bei „verstreuten Daten“ • Effizienteres Aussortieren nicht relevanter Dokumente FU-Berlin
Übersicht (2) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin
Generelle Probleme durch unterschiedliche Suchmaschinen • Indexierungsmethode • Dokument-Term-Gewichtung • Anfrage-Term-Gewichtung • Vergleichs-Funktion • Dokument-Datenbank • Dokument-Version • Unvergleichbarkeit untereinander und proprietäres Unwissen FU-Berlin
Übersicht (3) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin
Aufbau einer Metasuchmaschine„Architektur“ (1) User 1 User Interface 2 Database Selector Search Engine Search Engine FU-Berlin
Aufbau einer Metasuchmaschine„Database Selector“ • Auswahl nur sinnvoller Suchmaschinen • bei großer Suchmaschinenzahl • bei geringer Anzahl auszugebender Ergebnisse • Ressourceneinsparung • bei Anfrage-Weiterleitung in MSM-Umgebung • bei Anfrage-Auswertung in Komponenten-Suchmaschine • durch weniger Netz-Verkehr • bei Rückgabe-Auswertung in MSM-Umgebung FU-Berlin
Aufbau einer Metasuchmaschine„Architektur“ (2) User 1 User Interface 2 Database Selector 3 3 Document Selector Search Engine Search Engine FU-Berlin
Aufbau einer Metasuchmaschine„Document Selector“ • Auswahl zurückzugebender Dokumente • Direkte Beeinflussung der Rückgabe-Anzahl • Vergleich gegen einen „Ähnlichkeits-Grenzwert“ • Maximale Anzahl sinnvoller Dokumente • Minimale Anzahl unnützer Dokumente • Durchführung für jede ausgewählte Suchmaschine FU-Berlin
Aufbau einer Metasuchmaschine„Architektur“ (3) User 1 User Interface 2 Database Selector 3 3 Document Selector 4 Query Dispatcher 5 5 Search Engine Search Engine FU-Berlin
Aufbau einer Metasuchmaschine„Query Dispatcher “ • Verbindungsaufbau zu Komponenten-Suchmaschinen • HTTP-Anfrage-Methode (GET/POST) • Suchanfrage-Format • Verändern der Suchanfrage • (Relative) Gewichtung der Anfrage-Terme • Anzahl der zurückzugebenden Dokumente FU-Berlin
Aufbau einer Metasuchmaschine„Architektur“ (4) User 1 8 User Interface 2 Database Selector 7 3 3 Document Selector 4 Result Merger Query Dispatcher 6 5 5 Search Engine Search Engine FU-Berlin
Aufbau einer Metasuchmaschine„Result Merger “ • Verschmelzung der Rückgabe-Ergebnisse in sinnvoller Weise • EINE Liste mit Ergebnissen • Beachtung der Dokument-Rückgabezahl der MSM • Bewertung (ranking) auf Basis einer globalen Vergleichsfunktion (gegeben durch MSM) FU-Berlin
Aufbau einer Metasuchmaschine„Architektur“ (5) User 1 8 User Interface 2 Database Selector 7 3 3 Document Selector 4 Result Merger Query Dispatcher 6 5 5 Search Engine Search Engine FU-Berlin
Übersicht (4) • Vorteile von Metasuchmaschinen • Generelle Probleme durch unterschiedliche Suchmaschinen • Architektur und Aufbau von MSMs • Funktionsweise einzelner MSM-Komponenten • Weitere Herausforderungen FU-Berlin
Einzelne MSM-Komponenten„Übersicht“ (1) • Suchmaschinen-Auswahl (database selection) • Dokument-Auswahl (document selection) • Ergebnis-Verschmelzung (result merging) FU-Berlin
Einzelne MSM-Komponenten„Database Selection“ (1) • Auswahl nur nützlicher Datenbanken mit Hilfe von • einfachen Repräsentanten • statistischen Repräsentanten • lern-basierten Methoden FU-Berlin
Database Selection„Einfache Repräsentanten“ (1) • Text-Beschreibung des Datenbank-Inhalts • Oftmals manuell erstellt • Vergleich Anfrage – Beschreibung • Verschiedene Techniken • Beschreibung des DB-Inhalts • Fachgebiets-Angabe plus Anfrage • Restrukturierung der Anfrage • Automatisch erstellte Repräsentanten (Bsp.: Termvektoren als Repräsentanten) FU-Berlin
Database Selection„Einfache Repräsentanten“ (2) Beispiele: NetSerf topic: country synset: [nation, nationality, land, country, a_people] synset: [state, nation, country, land, common-wealth, res_publica, body_politic] synset: [country, state, land, nation] info-type: facts ALIWEB Template-Type: DOCUMENT Title: Perl URI: /public/perl/perl.html Description: Information on the Perl Programming Language. Includes a local Hypertext Perl Manual, and the latest FAQ in Hypertext. Keywords: perl, perl-faq, language Author-Handle: m.koster@nexor.co.uk FU-Berlin
Database Selection„Einfache Repräsentanten“ (3) • Vorteile • Einfache Handhabung • Ressourcenschonend • Einsetzbar bei hoch spezialisierten Datenbanken • Nachteile • Datenbank-Beschreibung unzureichend • Eventuell Eingriff des Nutzers nötig bei DB-Auswahl • Nicht gut einsetzbar bei umfassenden DB FU-Berlin
Einzelne MSM-Komponenten„Database Selection“ (2) • Auswahl nur nützlicher Datenbanken mit Hilfe von • einfachen Repräsentanten • statistischen Repräsentanten • lern-basierten Methoden FU-Berlin
Database Selection„Statistische Repräsentanten“ (1) • Nutzung detaillierter Informationen einer KSM • über Dokument-Frequenz jedes Terms • über Durchschnitts-Gewicht eines Terms über alle Dokumente … • Vorteil • Hohe Genauigkeit in Bestimmung der Ähnlichkeiten von Dokumenten zu einer Anfrage in einer KSM • Nachteil • Skalierbarkeit nicht immer optimal FU-Berlin
Database Selection„Statistische Repräsentanten“ (2) • Methoden • Relative KSM-Bewertung • Relativer KSM-Ranking-Wert • Absolute KSM-Bewertung • Unabhängiger Ranking-Wert • Schätzung der Anzahl nützlicher Dokumente • Schätzung der globalen Ähnlichkeit des der Anfrage am ähnlichsten Dokumentes FU-Berlin
Statistische Repräsentanten „Ähnlichstes Dokument“ (1) • Definition: Eine Menge von M Datenbanken ist optimal gewichtet [D1, D2, …, DM], wenn es ein k gibt, sodass D1, D2, …, Dk die m ähnlichsten Dokumente beinhalten und jede Di (1<= i <= k) mindestens eines der m Dokumente enthält. • Bedingung: msim(q, D1) > msim(q, D2) > … msim(q, Di) = Globaler Vergleichswert des der Anfrage ähnlichsten Dokumentes • Auswahl der ersten k KSMs FU-Berlin
Statistische Repräsentanten„Ähnlichstes Dokument“ (2) • Bestimmung von msim(q, D): • Zwei Repräsentanten • Global: Globales inverses Dokument-Frequenz-Gewicht gidfi für jeden Term ti • Lokal: Wertepaar (mnwi, anwi) mit mnwi = Maximales normalisiertes Gewicht von ti anwi = Durchschnittliches normalisiertes Gewicht von ti Normalisiertes Gewicht = di / |d| di = Gewicht von Term ti in Dokument d |d| = Länge von Dokument d FU-Berlin
Statistische Repräsentanten„Ähnlichstes Dokument“ (3) • Anfrage-Vektor q = (q1, q2, …, qk) msim(q, D) = • Links: Anfrage-ähnlichstes Dokument hat Maximumgewicht des i-ten Anfrage-Terms • / |q|: Normalisierung von msim • Sortierung der KSMs nach msim(q, D) FU-Berlin
Statistische Repräsentanten„Ähnlichstes Dokument“ (4) • Einfache Anpassung bei Wort-zusammenhängen • Maximales normalisiertes Gewicht dominiert • üblicherweise um 2 oder mehr Ordnungen • wegen Einberechnungen der Null-Werte im durchschnittlichen Gewicht • Einschränkung der Formel für msim(q, D) auf msim(q, D) = max1<=i<=k {qi * ami} mit ami = gidfi * mnwi [Angepasstes normalisiertes Gewicht] FU-Berlin
Einzelne MSM-Komponenten„Database Selection“ (3) • Auswahl nur nützlicher Datenbanken mit Hilfe von • einfachen Repräsentanten • statistischen Repräsentanten • lern-basierten Methoden FU-Berlin
Database Selection„Lern-basierte Methoden“ • Nutzenbestimmung einer Datenbank durch Erfahrungswerte • Verschiedene Techniken • Statisches Lernen • MRDD (modeling relevant document distribution) • Dynamisches Lernen • Ranking-Wert-Bestimmung u.a. durch „Maus-Klicks“ • Kombination aus statischem und dynamischem Lernen FU-Berlin
Statisches Lernen„MRDD“ (1) • Bilden einer Menge von Trainings-Anfragen • Weiterleitung der T-Anfragen an alle KSM • Bilden eines Verteilungs-Vektors aus relevanten Dokumenten pro T-Anfrage und KSM • Identifikation der relevanten Dokumente aus Rückgabeliste • Aufbau: Pro VV-Dimension Anzahl zu holender Dokumente für nächstes relevantes Dokument FU-Berlin
Statisches Lernen„MRDD“ (2) • Vergleich Benutzer-Anfrage/Trainings-Anfragen • Bestimmung der k ähnlichsten T-Anfragen • Pro KSM Errechnung eines Durchschnitts-Verteilungs-Vektors der k T-Anfragen • Nutzung dieser Durchschnittsvektoren zur KSM-Auswahl mit Blick auf Precision-Maximierung FU-Berlin
Statisches Lernen„MRDD“ (3) • Beispiel (Aufbau eines Verteilungsvektors): Für T-Anfrage wurden 100 Dokumente in KSM gefunden (d1, d2, …, d100) [in dieser Reihenfolge] Relevante Dokumente: d1, d6, d20, d88 Verteilungsvektor: {1, 6, 20, 88} FU-Berlin
Statisches Lernen„MRDD“ (4) • Beispiel-Fortsetzung (KSM-Auswahl): Durchschnitts-Vektoren: D1: {1, 4, 6, 7, 10, 12, 17} D2: {3, 5, 7, 9, 15, 20} D3: {2, 3, 6, 9, 11, 16} Anzahl auszugebender Dokumente: m = 3 Dokumentzahl pro KSM: m1 = 1; m3 = 3 => Precision = 0,75 KSM-Auswahl: D1, D3 FU-Berlin
Suchmaschinen-Auswahl„Zusammenfassung“ • Einfache Repräsentanten • Statistische Repräsentanten • „Ähnlichstes Dokument“ • Lern-basierte Methoden • MRDD FU-Berlin
Einzelne MSM-Komponenten„Übersicht“ (2) • Suchmaschinen-Auswahl (database selection) • Dokument-Auswahl (document selection) • Ergebnis-Verschmelzung (result merging) FU-Berlin
Einzelne MSM-Komponenten„Document Selection“ • Einschränkung der Ergebnis-Dokumenten-Anzahl • Entscheidung durch Benutzer • (Datenbank-)Gewichtete Auswahl • Lern-basierte Methoden • Garantierte Rückgabe (guaranteed retrieval) FU-Berlin
Document Selection„Benutzer-Entscheidung“ • Benutzer-Entscheidung über Maximalanzahl der Rückgabe-Dokumente pro KSM • Vorteil • Einfachst-Implementierung • Nachteile • Nur bei kleiner KSM-Zahl und großem Wissen über selbige günstig • Uneffektiv, wenn Dokument-Anzahl pauschal angegeben (pro KSM Dokumente) FU-Berlin
Document Selection„Gewichtete Auswahl“ • Mehr Dokumente von gewichtigeren (nach ‚database selection‘) KSM • Basierend auf ‚ranking score‘ oder ‚db rank‘ • Vorteile • Einfache Implementierung • Vernünftige Grundlage • Nachteil • Möglicherweise zu wenig nützliche Dokumente FU-Berlin
Document Selection„Lern-basierte Methoden“ • Rückblick auf Retrieval-Erfahrungen • MRDD (modeling relevant document distribution) • QC (query clustering) FU-Berlin
Document Selection„Lern-basiertes Query Clustering“ (1) • Trainingsphase mit „Übungs-Anfragen“ • Clustering dieser Anfragen innerhalb jeder KSM Anfragen Rückgabe-Dokumente Cluster T-Anfrage 1 Dokument A, Dokument C, Dokument D T-Anfrage 1 T-Anfrage 2 T-Anfrage 2 Dokument B, Dokument C, Dokument D T-Anfrage 3 Dokument E, Dokument F, Dokument G T-Anfrage 3 T-Anfrage 5 T-Anfrage 4 Dokument E, Dokument H, Dokument I T-Anfrage 4 T-Anfrage 5 T-Anfrage 5 Dokument E, Dokument F, Dokument I FU-Berlin
Document Selection„Lern-basiertes Query Clustering“ (2) • Bilden des Durchschnittsvektors (centroid) der Anfrage-Vektoren pro Cluster • Gewichtung der Cluster auf Basis • der Durchschnitts-Anzahl der relevanten Dokumente • aus den besten T ausgegebenen Dokumenten • Clustergewicht ~ ‚Precision‘ der Anfragen innerhalb des Clusters FU-Berlin
Document Selection„Lern-basiertes Query Clustering“ (3) • Wahl des Clusters pro KSM nach Ähnlichkeit mit Benutzer-Anfrage m.H. des ‚centroid‘ • Nutzung aller ausgewählten Cluster-Gewichtungen zur Dokument-Auswahl Dokumentanzahl aus KSM Di = m = Gesamtzahl zurückzugebender Dokumente wi = Gewicht des Anfrage-Clusters von Di N = Anzahl der KSMs FU-Berlin
Document Selection„Lern-basiertes Query Clustering“ (4) • Vorteile • Gute Ergebnisse bei großer Ähnlichkeit von Trainings- und Benutzer-Anfragen • Nachteile • Schlechte Anpassungsfähigkeit des Verfahrens • Schwierige Auswahl der Trainings-Anfragen • Großer Zeitaufwand beim Filtern der relevanten Dokumente bei hoher Zahl von Trainings-Anfragen FU-Berlin
Document Selection„Garantierte Rückgabe“ • Mitbetrachtung der globalen Vergleichsfunktionen • Umgehung von KSM-Unterschiedlichkeits-Problemen • Effektivitäts-Steigerung bei Filterung nützlicher und unnützer Dokumente • Ziel: Rückgabe aller nützlichen bei Minimierung von nutzlosen Dokumenten • Methoden • Anfrage-Modifikation • Berechnung des kleinsten lokalen Grenzwertes FU-Berlin
Garantierte Rückgabe„Anfrage-Modifikation“ • Veränderung der Anfrage vor Weiterleitung an KSM • Ziel: Rückgabe der KSM-Dokumente in Reihenfolge der globalen Ähnlichkeiten • Nachteile • Nicht jede Kombination von lokalen und globalen Vergleichs-Funktionen möglich • Wissen über Vergleichs-Funktion und Term-Gewichtungs-Formel nötig FU-Berlin
Garantierte Rückgabe„Kleinster lokaler Grenzwert“ • Finden eines Ähnlichkeits-Grenzwertes pro KSM, bei dem • alle relevanten Dokumente ausgegeben werden • keine unnützen Dokumente zurückgegeben werden • Nachteile • Lösungsfindung für jedes Globale-Lokale-Vergleichsfunktions-Paar einzeln • Lösung existiert nicht immer FU-Berlin
Dokument-Auswahl„Zusammenfassung“ • Benutzer-Entscheidung • Gewichtete Auswahl • Lern-basierte Methoden • Query Clustering • Garantierte Rückgabe FU-Berlin
Einzelne MSM-Komponenten„Übersicht“ (3) • Suchmaschinen-Auswahl (database selection) • Dokumenten-Auswahl (document selection) • Ergebnis-Verschmelzung (result merging) FU-Berlin