1 / 11

Relevanz Ranking

Relevanz Ranking. Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: Das Wort x hat im Dokument y ein Gewicht von xx. So könnte der Index aussehen. Invertierte Liste.

Download Presentation

Relevanz Ranking

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Relevanz Ranking Bisher: • Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: • Das Wort x hat im Dokument y ein Gewicht von xx

  2. So könnte der Index aussehen Invertierte Liste Mittelwert berechnen 0,97+0,65+0,44/3 = 0,69 für Dok 1 0,76+0,86+0,26/3 = 0,63 für Dok 2 Welches Dokument ist das relevanteste für die nebenstehende Suchanfrage? Filesharing + Musikindustrie + Internet

  3. Relevanz Ranking • Es ist aber auch möglich, dass das Ranking ‚on the fly‘ während des Rechercheprozesses durchgeführt wird

  4. Ein Beispiel Frage ☻ Gesucht sind Dokumente zum Thema „Musikindustrie und Filesharing im Internet" in einer großen medienwissenschaftlichen Datenbank mit 1.000.000 Datensätzen. Die Datenbank enthält • 40.000 Datensätze mit dem Wort ‚Musikindustrie' • 30.000 Datensätze mit dem Wort ‚Filesharing' • 50 Datensätze mit dem Wort ‚Internet' • 10 Datensätze mit Wort ‚Strafe' Was meinen Sie spontan? Sollen beim best match alle Datensätze mit Musikindustrie und Filesharing angezeigt werden?

  5. Lösung: Schritt 1: vereinfachte Berechnung der Gewichtung der Suchtermini nach der Formel: G = ln(N/n) Gewicht = natürlicher Logarithmus (Anzahl Datensätze Datenbank/Anzahl Treffer Suchbegriff) Musikindustrie: ln(1.000.000 / 40.000) = ln 25 = 3,2 Filesharing: ln(1.000.000 / 30.000) = ln 33,3 = 3,5 Internet: ln(1.000.000 / 50) = ln 20.000 = 9,9 Strafe: ln( 1.000.000 / 10) = ln 100.000 = 11,51

  6. Lösung: Schritt 2: Festlegung von maximal möglicher Gewichtung (MMG) und und minimal akzeptabler Gewichtung (MAG) MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm enthalten sind. MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten, um überhaupt für die Recherche als relevant angezeigt zu werden. Formeln für die Gewichtung der Datensätze • Für Suchfomulierungen mit nur 1 Suchterminus: MAG = MMG • Für Suchfomulierungen mit genau 2 Suchtermini: a) 2 häufig vorkommende Termini (z.B. Musikindustrie und Filesharing): MAG = Summe der Gewichte beider Suchtermini) b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. ‚Musikindustrie im Internet'): MAG = Gewicht des seltenen Suchterminus) c) 2 selten vorkommende Suchtermini (z.B. ‚Internet und Strafe'): MAG = Gewicht von einem der beiden Suchtermini • Für Suchformulierungen mit mehr als 2 Suchtermini MAG = MMG / 2 Bezogen auf das Beispiel oben: „Musikindustrie und Filesharing im Internet ": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini. MMG = 3,2 + 3,5 + 9,9 = 16,6 Berechnung der MAG = MMG / 2 (16,6 / 2 = 8,3)

  7. Lösung: MAG = MMG / 2 (16,6 / 2 = 8,3) Schritt 3: Ermittlung, welche Kombination den Schwellenwert erreichen Musikindustrie: = 3,2 Filesharing:= 3,5 Internet: = 9,9 Ranking-Reihenfolge 1) Zuerst Dokumente, die alle Suchtermini enthalten (MMG = 16,6) 2) dann alle Datensätze mit ‚Internet + Filesharing' (9,9 + 3,5 = 13,4) 3) dann Datensätze mit ‚Internet + Musikindustrie' (9,9 + 3,2 = 13,1) 4) dann alle Datensätze mit ‚Internet' (Gewichtung = 9,9). Nicht angezeigt: Musikindustrie und Filesharing (3,2 + 3,5 = 6,7); Musikindustrie =3,2; Filensharing =3,5

  8. Relevanz Feedback Ziele: • Automatische Erweiterung des Query (der Suchanfrage) um geeignete Suchterme • Annahme: geeignete Suchterme kommen in relevanten Treffern häufig vor und in nicht relevanten Treffern selten

  9. Relevanz Feedback Dumme Frage ☻ Suche: Ozonloch + Erderwärmung 20 Treffer, davon 8 relevant (also 12 nicht relevant) Häufigstes Wort in relevanten Dokumenten: 6 x Treibhaus 3 x Gewächshaus Häufigstes Wort in nicht relevanten Dokumenten: 2 x Treibhaus 8 x Gewächshaus Würden Sie eine Erweiterung der Suchanfrage durch Gewächshaus empfehlen?

  10. Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante. Davon 6 mit Treibhaus, 2 ohne Treibhaus 6/2 = 3 = Wahrscheinlichkeit, dass Treibhaus in relevanten Dokumenten vorkommt, ist also 3 12 nicht relevante Davon 2 mit Treibhaus, 10 ohne Treibhaus 2/10 = 0,2 = Wahrscheinlichkeit, dass Treibhaus in nicht relevanten Dokumenten vorkommt ist 0,2 Wahrscheinlichkeit von relevanten zu nicht relevanten wird in Beziehung gesetzt =3,0 / 0,2 15 Gewicht für Treibhaus

  11. Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante Davon 3 mit Gewächshaus, 5 ohne Gewächshaus Rechnung 3/5 = Wahrscheinlichkeit von Gewächshaus für relevante Dokumente ist also 0,6 12 nicht relevante Davon 8 mit Gewächshaus, 4 ohne Gewächshaus Rechnung 8/4 = Wahrscheinlichkeit von Gewächshaus für nicht relevante Dokumente ist also 2 Wahrscheinlichkeit von Vorkommen in relevanten und nicht relevanten Dokumenten wird in Beziehung gesetzt =0,6 / 2 0,3 Gewicht für Gewächshaus bei der Suchverfeinerung.  Eine Verfeinerung der Suchanfrage mit Gewächshaus ist wohl eher nicht zu empfehlen.

More Related