1 / 18

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell. Tobias Scheffer Uwe Dick Peter Haider Paul Prasse. Information Retrieval. Konstruktion von Systemen, die die Informationsbedürfnisse der Benutzer befriedigen. Repräsentation, Speicherung, Zugriff auf Dokumente.

jolene
Download Presentation

Information Retrieval, Vektorraummodell

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Information Retrieval,Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse

  2. Information Retrieval • Konstruktion von Systemen, die die Informationsbedürfnisse der Benutzer befriedigen. • Repräsentation, Speicherung, Zugriff auf Dokumente. • Informationsbedürfnis kann, muss aber nicht durch Anfrage ausgedrückt werden. 2

  3. Schlüsselwort-Modell • Dokument repräsentiert durch Schlüsselwörter. • Schlüsselwörter unterschiedlich speziell und relevant, unterschiedliche Gewichte. • K = {k1, …, kt} sind Index-Terme. • Dokument dJ = (w1,J, …, wt,J) • wi,J=0, wenn ki nicht in dJ vorkommt, wi,J=gi(dJ) sonst. beliebigeFunktion; berücksichtigt, ob und wie oft das Wort vorkommt 3

  4. Boolesches Modell • Dokumente: beschrieben durch Vorkommen von Schlüsselwörtern. • Suchanfrage sind Boolesche Ausdrücke. • Ergebnisse der Suchanfrage werden durch Mengenoperationen bestimmt. • Binäre Entscheidungen, kein Ranking der Ergebnisse. • Dokument dJ = (w1,J, …, wt,J), für Schlüsselwörter. • wi,J=0, wenn ki nicht in dJ vorkommt, wi,J=1 sonst. 4

  5. Ranking oder binäre Entscheidungen • Boolsches Modell gibt alle Dokumente zurück, die der Anfrage genügen. • Keine Reihenfolge. Gefühlt „mehr Kontrolle“ für den Nutzer • Score-Bewertungen implizieren Ranking • Schlechtes Ranking bedeutet schlechte Performance 5

  6. Vektorraummodell • Bag-of-Words: • Nur die Menge der Wörter wird berücksichtigt. • Keine Berücksichtigung der Wortreihenfolge. • Vektorraummodell: • Jeder Text = Punkt in hochdimensionalem Raum. • Raum hat eine Dimension für jedes Wort der Sprache. • Variante: nur Wortstämme berücksichtigen, „Stop-Wörter“ entfernen. 6

  7. Vorverarbeitung • Stemming: Nur Wortstämme verwenden • Auch: bin, bist, sind, … -> sein • Lemmatizing: Wie Stemming, nur unter Zuhilfenahme von Parseinformationen. • Normalisierung: z.B im Englischen: anti-discriminatory und antidiscriminatory. • Auch Synonymauflösung: Auto, Wagen • Stopwords: der, die, das, von, … 7

  8. Vektorraum-Modell • Text wird repräsentiert durch Punkt im hochdimensionalen Raum, • Wortreihenfolge bleibt unberücksichtigt, • Wortstammbildung, „inverse document frequency“. 8

  9. Vektorraum-Modell: TFIDF-Repräsentation • Termfrequenz eines Wortes in einem Text = # Vorkommen des Wortes im Text. • Problem: Einige Wörter sind weniger relevant (und, oder, nicht, wenn, …) • Lösung: Inverse Dokumentenfrequenz 9

  10. Vektorraum-Modell • Problem: Lange TextehabenlangeVektoren, führtzuVerzerrungenbeimÄhnlichkeitsmaß. • Lösung: Normieren • Repräsentation eines Textes: 10

  11. TFIDF • Alternative Definitionen für Termfrequenz, Dokumentfrequenz und Normalisierung • Auszug aus Manning, et.al.: Introduction to Information Retrieval: http://nlp.stanford.edu/IR-book/ 11

  12. Vektorraum-Modell • Ähnlichkeit zwischen Text dJ und und Anfrage q: Cosinus des Winkels zwischen den Vektoren. • Ähnlichkeit: • Zwischen 0 und 1. 12

  13. Probabilistisches Modell • Binary independence retrieval (BIR) model. • Dokument dJ = (w1,J, …, wt,J), für Schlüsselwörter. • wi,J=0, wenn ki nicht in dJ vorkommt, wi,J=1 sonst. • R ist die Menge der relevanten Dokumente. • Gesucht: Schätzer für P(R | dJ): P(Dokument ist relevant). • Ähnlichkeit: Odds-Ratio 13

  14. Probabilistisches Modell • Bayes‘ Regel: • P(R) ist konstant (für alle Dokumente gleich) • Annahme: Die Terme des Dokuments sind unabhängig: 14

  15. Probabilistisches Modell • Dann folgt für sim: • : Wahrscheinlichkeit für Anfrageterm ki in relevanten Texten. • : Wahrscheinlichkeit dafür, dass Anfrageterm ki in relevantem Text nicht auftritt. 15

  16. Probabilistisches Modell • Annahme: Wörter, die in der Anfrage q nicht auftauchen, haben gleiche Wahrscheinlichkeit in relevanten wie nicht relevanten Dokumenten vorzukommen. • Logarithmiert und leicht umgeformt: 16

  17. Probabilistisches Modell • Problem: P(ki | R) ist nicht bekannt. • Muss irgendwie von Hand eingestellt oder aus Daten gelernt werden. 17

  18. Fragen? 18

More Related