1 / 18

Rocchio Algorithmus

Rocchio Algorithmus. Vortrag im Rahmen des Seminars Neue Ansätze der Künstlichen Intelligenz Prof. Dr. Katharina Morik Lehrstuhl für Künstliche Intelligenz Guido Müller guido.mueller@uni-dortmund.de 18. Juni 2002 im Westfalenpark.

amos-pena
Download Presentation

Rocchio Algorithmus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Rocchio Algorithmus Vortrag im Rahmen des Seminars Neue Ansätze der Künstlichen Intelligenz Prof. Dr. Katharina Morik Lehrstuhl für Künstliche Intelligenz Guido Müller guido.mueller@uni-dortmund.de 18. Juni 2002 im Westfalenpark J.J. Rocchio, relevance feedback in information retrieval, 1971

  2. Gliederung des Vortrages: • Einleitung • Der Rocchio Algorithmus • Naiver Bayes'scher Klassifikator • Kollaboratives Filtern • Literatur

  3. 1. Einleitung • Intelligente Suchmaschinen • Lernfähigkeiten bezüglich Information Retrieval • Konzentration auf Basis-Lernalgorithmus: Rocchio 1971 • Modellierung von Text mit probabilistischen Methoden: Bayes'scher Klassifikator

  4. 2. Der Rocchio Algorithmus • Kapitelaufbau • Zweck und Einordnung • Hauptidee • Definitionen • Beispiel (interaktiv) • Bedeutsamkeit

  5. 2. Der Rocchio Algorithmus • Zweck und Einordnung • Methode zum Relevance Feedback • (optimierte) Dokumentensuche • Klassifizierung von Textdokumenten • Dokumente als Wortvektoren (Bag-of-words-Ansatz) • Einfachheit ►Effizienz • Equal Effectiveness Paradoxon: • „... all reasonable text reprentations have been found to result in very similar effictiveness on the retrieval task.“(Lewis, 1992)

  6. 2. Der Rocchio Algorithmus • Grundidee • Bag-of-words-Ansatz (Wortvektor) • Gleicher Inhalt => gleicher Vektor δ • Vektoren „ähnlich“ => Ähnlichkeit von Dokumenten • Relevance Feedback: Relevanz-Erkenntnisse fließen in neue Suchanfrage ein

  7. 2. Der Rocchio Algorithmus • Definitionen: • TF = term frequency wie oft kommt ein Wort im Dokument vor • DF = document freq. |Dokumente, in denen ein Wort vorkommt| • IDF = inverse DF • Vektor: d(i) = TF(wi,d) • IDF(wi) • => je öfter ein Wort vorkommt, desto wichtiger ist es • => je mehr Dokumente dieses Wort beinhalten, desto unwichtiger ists

  8. 2. Der Rocchio Algorithmus • Definitionen: • TF = term frequency wie oft kommt ein Wort im Dokument vor • DF = document freq. |Dokumente, in denen das Wort vorkommt| • IDF = inverse DF • Vektor: d(i) = TF(wi,d) • IDF(wi) Beispiel:

  9. 2. Der Rocchio Algorithmus • Kategorisierung: • Wie ähnlich sind nun zwei Dokumente? • Maß der Ähnlichkeit: Kosinus der Vektoren δ1 und δ2

  10. 2. Der Rocchio Algorithmus • Relevance Feedback : • Der Benutzer stuft die ihm präsentierten Dokumente ein als relevant, bzw. irrelevant • Rocchio generiert verfeinerte Anfrage: • Aneu = Aneu + 1/n0Σδ+ - 1/(n-n0)Σδ- • δ+ - bezeichnet die „relevanten“ Dokumente • δ- - bezeichnet die „ nicht relevanten“ Dokumente

  11. 2. Der Rocchio Algorithmus • Eignet sich auch zur Textkategorisierung • Statt Relevanz-Einstufungen des Benutzers bildet sich die δ+ - Klasse aus Trainingsdokumenten. • Schwellenwert Θ, ab dem der cos-Wert die beiden Dokumente als „ähnlich“ einstuft.

  12. 2. Der Rocchio Algorithmus • Bedeutsamkeit • Vielfältige Einsatzmöglichkeiten • Einfach und deshalb schnell und gut • Existiert in vielen Abwandlungen/Verbesserungen als Grundgerüst • Joachims: probabilistische Analyse des Rocchio-Algos als state-of-the-art

  13. 3. Naiver Bayes'scher Klassifikator • Konzept • Probabilistisches Modell von Text • Grundidee, -annahme: • Dokumente enstehen durch zufälliges Ziehen von Wörtern aus einer Klassen-Urne • Klassifizierung erfolgt durch Berechnung der Wahrscheinlichkeit, dass ein Dokument zu einer Klasse gehört • => Das Dokument wird in jene Klasse einsortiert, die am warscheinlichsten dieses Dok. erzeugt hat

  14. 3. Naiver Bayes'scher Klassifikator • Vereinfachende Annahmen: • z.B. „konditionale Unabhängigkeitsannahme“ • ein auftretendes Wort im Dokument ist unabhägig vom Vorgänger • Ist zwar falsch, hat sich in der Praxis aber als sinnvoll erwiesen • => einfachere Berechnung der Wahrscheinlichkeiten: • Wahrscheinlichkeit für Klassen zurückführbar auf die für das Erzeugen der Wörter

  15. 4. Kollaboratives Filtern • Daten werden individuell gefiltert • Modelle werden erstellt • Content based filtering: • Rating-Verfahren und Beschreibungen des Benutzers • Collaborative filtering • Daten anderer/ähnlicher Benutzer werden herangezogen • Unabhängig von Daten • Es wird präsentiert, was andere Benutzer, die gleiche Ratings hatten gut gefunden haben • z.B. bei amazon.de gibt's beides

  16. 4. Kollaboratives Filtern • Beispiel Bücherkauf: • Bücher: Karl: Jan: Paula: Frank: • Java-Einführung X - - ? • Der Klient X X - X • Das Tee-Buch - X - ? • Bilderbuch - - X ? • LaTeX X - - ?

  17. Literatur: • 1. Thorsten Joachims. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. School of Computer Science, Carnegie Mellon University, Pittsburgh 1996 • 2. Thorsten Joachims. Diplomarbeit: Einsatz eines intelligenten, lernenden Agenten für das World Wide Web. Universität Dortmund, 1996 • 3. J.J. Rocchio. Relevance Feedback in Information Retrieval in The SMART Retrieval System: Experiments in Automatic Document Processing, Ch. 14, Prentice Hall Inc., 1971 • 4. Koji Miyahara/ Michael J. Pazzani. Collaborative Filtering with the Simple Bayesian Classifier at Pacific Rim International Conference on Artificial Intelligence, 2000

  18. Vielen Dank für Eure Aufmerksamkeit ;-) Der Rocchio Algorithmus

More Related