120 likes | 217 Views
Relevanz Ranking. Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: Das Wort x hat im Dokument y ein Gewicht von xx. So könnte der Index aussehen. Invertierte Liste.
E N D
Relevanz Ranking Bisher: • Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: • Das Wort x hat im Dokument y ein Gewicht von xx
So könnte der Index aussehen Invertierte Liste Mittelwert berechnen 0,97+0,65+0,44/3 = 0,69 für Dok 1 0,76+0,86+0,26/3 = 0,63 für Dok 2 Welches Dokument ist das relevanteste für die nebenstehende Suchanfrage? Filesharing + Musikindustrie + Internet
Relevanz Ranking • Es ist aber auch möglich, dass das Ranking ‚on the fly‘ während des Rechercheprozesses durchgeführt wird
Ein Beispiel Frage ☻ Gesucht sind Dokumente zum Thema „Musikindustrie und Filesharing im Internet" in einer großen medienwissenschaftlichen Datenbank mit 1.000.000 Datensätzen. Die Datenbank enthält • 40.000 Datensätze mit dem Wort ‚Musikindustrie' • 30.000 Datensätze mit dem Wort ‚Filesharing' • 50 Datensätze mit dem Wort ‚Internet' • 10 Datensätze mit Wort ‚Strafe' Was meinen Sie spontan? Sollen beim best match alle Datensätze mit Musikindustrie und Filesharing angezeigt werden?
Lösung: Schritt 1: vereinfachte Berechnung der Gewichtung der Suchtermini nach der Formel: G = ln(N/n) Gewicht = natürlicher Logarithmus (Anzahl Datensätze Datenbank/Anzahl Treffer Suchbegriff) Musikindustrie: ln(1.000.000 / 40.000) = ln 25 = 3,2 Filesharing: ln(1.000.000 / 30.000) = ln 33,3 = 3,5 Internet: ln(1.000.000 / 50) = ln 20.000 = 9,9 Strafe: ln( 1.000.000 / 10) = ln 100.000 = 11,51
Lösung: Schritt 2: Festlegung von maximal möglicher Gewichtung (MMG) und und minimal akzeptabler Gewichtung (MAG) MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm enthalten sind. MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten, um überhaupt für die Recherche als relevant angezeigt zu werden. Formeln für die Gewichtung der Datensätze • Für Suchfomulierungen mit nur 1 Suchterminus: MAG = MMG • Für Suchfomulierungen mit genau 2 Suchtermini: a) 2 häufig vorkommende Termini (z.B. Musikindustrie und Filesharing): MAG = Summe der Gewichte beider Suchtermini) b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. ‚Musikindustrie im Internet'): MAG = Gewicht des seltenen Suchterminus) c) 2 selten vorkommende Suchtermini (z.B. ‚Internet und Strafe'): MAG = Gewicht von einem der beiden Suchtermini • Für Suchformulierungen mit mehr als 2 Suchtermini MAG = MMG / 2 Bezogen auf das Beispiel oben: „Musikindustrie und Filesharing im Internet ": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini. MMG = 3,2 + 3,5 + 9,9 = 16,6 Berechnung der MAG = MMG / 2 (16,6 / 2 = 8,3)
Lösung: MAG = MMG / 2 (16,6 / 2 = 8,3) Schritt 3: Ermittlung, welche Kombination den Schwellenwert erreichen Musikindustrie: = 3,2 Filesharing:= 3,5 Internet: = 9,9 Ranking-Reihenfolge 1) Zuerst Dokumente, die alle Suchtermini enthalten (MMG = 16,6) 2) dann alle Datensätze mit ‚Internet + Filesharing' (9,9 + 3,5 = 13,4) 3) dann Datensätze mit ‚Internet + Musikindustrie' (9,9 + 3,2 = 13,1) 4) dann alle Datensätze mit ‚Internet' (Gewichtung = 9,9). Nicht angezeigt: Musikindustrie und Filesharing (3,2 + 3,5 = 6,7); Musikindustrie =3,2; Filensharing =3,5
Relevanz Feedback Ziele: • Automatische Erweiterung des Query (der Suchanfrage) um geeignete Suchterme • Annahme: geeignete Suchterme kommen in relevanten Treffern häufig vor und in nicht relevanten Treffern selten
Relevanz Feedback Dumme Frage ☻ Suche: Ozonloch + Erderwärmung 20 Treffer, davon 8 relevant (also 12 nicht relevant) Häufigstes Wort in relevanten Dokumenten: 6 x Treibhaus 3 x Gewächshaus Häufigstes Wort in nicht relevanten Dokumenten: 2 x Treibhaus 8 x Gewächshaus Würden Sie eine Erweiterung der Suchanfrage durch Gewächshaus empfehlen?
Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante. Davon 6 mit Treibhaus, 2 ohne Treibhaus 6/2 = 3 = Wahrscheinlichkeit, dass Treibhaus in relevanten Dokumenten vorkommt, ist also 3 12 nicht relevante Davon 2 mit Treibhaus, 10 ohne Treibhaus 2/10 = 0,2 = Wahrscheinlichkeit, dass Treibhaus in nicht relevanten Dokumenten vorkommt ist 0,2 Wahrscheinlichkeit von relevanten zu nicht relevanten wird in Beziehung gesetzt =3,0 / 0,2 15 Gewicht für Treibhaus
Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante Davon 3 mit Gewächshaus, 5 ohne Gewächshaus Rechnung 3/5 = Wahrscheinlichkeit von Gewächshaus für relevante Dokumente ist also 0,6 12 nicht relevante Davon 8 mit Gewächshaus, 4 ohne Gewächshaus Rechnung 8/4 = Wahrscheinlichkeit von Gewächshaus für nicht relevante Dokumente ist also 2 Wahrscheinlichkeit von Vorkommen in relevanten und nicht relevanten Dokumenten wird in Beziehung gesetzt =0,6 / 2 0,3 Gewicht für Gewächshaus bei der Suchverfeinerung. Eine Verfeinerung der Suchanfrage mit Gewächshaus ist wohl eher nicht zu empfehlen.