180 likes | 339 Views
Rocchio Algorithmus. Vortrag im Rahmen des Seminars Neue Ansätze der Künstlichen Intelligenz Prof. Dr. Katharina Morik Lehrstuhl für Künstliche Intelligenz Guido Müller guido.mueller@uni-dortmund.de 18. Juni 2002 im Westfalenpark.
E N D
Rocchio Algorithmus Vortrag im Rahmen des Seminars Neue Ansätze der Künstlichen Intelligenz Prof. Dr. Katharina Morik Lehrstuhl für Künstliche Intelligenz Guido Müller guido.mueller@uni-dortmund.de 18. Juni 2002 im Westfalenpark J.J. Rocchio, relevance feedback in information retrieval, 1971
Gliederung des Vortrages: • Einleitung • Der Rocchio Algorithmus • Naiver Bayes'scher Klassifikator • Kollaboratives Filtern • Literatur
1. Einleitung • Intelligente Suchmaschinen • Lernfähigkeiten bezüglich Information Retrieval • Konzentration auf Basis-Lernalgorithmus: Rocchio 1971 • Modellierung von Text mit probabilistischen Methoden: Bayes'scher Klassifikator
2. Der Rocchio Algorithmus • Kapitelaufbau • Zweck und Einordnung • Hauptidee • Definitionen • Beispiel (interaktiv) • Bedeutsamkeit
2. Der Rocchio Algorithmus • Zweck und Einordnung • Methode zum Relevance Feedback • (optimierte) Dokumentensuche • Klassifizierung von Textdokumenten • Dokumente als Wortvektoren (Bag-of-words-Ansatz) • Einfachheit ►Effizienz • Equal Effectiveness Paradoxon: • „... all reasonable text reprentations have been found to result in very similar effictiveness on the retrieval task.“(Lewis, 1992)
2. Der Rocchio Algorithmus • Grundidee • Bag-of-words-Ansatz (Wortvektor) • Gleicher Inhalt => gleicher Vektor δ • Vektoren „ähnlich“ => Ähnlichkeit von Dokumenten • Relevance Feedback: Relevanz-Erkenntnisse fließen in neue Suchanfrage ein
2. Der Rocchio Algorithmus • Definitionen: • TF = term frequency wie oft kommt ein Wort im Dokument vor • DF = document freq. |Dokumente, in denen ein Wort vorkommt| • IDF = inverse DF • Vektor: d(i) = TF(wi,d) • IDF(wi) • => je öfter ein Wort vorkommt, desto wichtiger ist es • => je mehr Dokumente dieses Wort beinhalten, desto unwichtiger ists
2. Der Rocchio Algorithmus • Definitionen: • TF = term frequency wie oft kommt ein Wort im Dokument vor • DF = document freq. |Dokumente, in denen das Wort vorkommt| • IDF = inverse DF • Vektor: d(i) = TF(wi,d) • IDF(wi) Beispiel:
2. Der Rocchio Algorithmus • Kategorisierung: • Wie ähnlich sind nun zwei Dokumente? • Maß der Ähnlichkeit: Kosinus der Vektoren δ1 und δ2
2. Der Rocchio Algorithmus • Relevance Feedback : • Der Benutzer stuft die ihm präsentierten Dokumente ein als relevant, bzw. irrelevant • Rocchio generiert verfeinerte Anfrage: • Aneu = Aneu + 1/n0Σδ+ - 1/(n-n0)Σδ- • δ+ - bezeichnet die „relevanten“ Dokumente • δ- - bezeichnet die „ nicht relevanten“ Dokumente
2. Der Rocchio Algorithmus • Eignet sich auch zur Textkategorisierung • Statt Relevanz-Einstufungen des Benutzers bildet sich die δ+ - Klasse aus Trainingsdokumenten. • Schwellenwert Θ, ab dem der cos-Wert die beiden Dokumente als „ähnlich“ einstuft.
2. Der Rocchio Algorithmus • Bedeutsamkeit • Vielfältige Einsatzmöglichkeiten • Einfach und deshalb schnell und gut • Existiert in vielen Abwandlungen/Verbesserungen als Grundgerüst • Joachims: probabilistische Analyse des Rocchio-Algos als state-of-the-art
3. Naiver Bayes'scher Klassifikator • Konzept • Probabilistisches Modell von Text • Grundidee, -annahme: • Dokumente enstehen durch zufälliges Ziehen von Wörtern aus einer Klassen-Urne • Klassifizierung erfolgt durch Berechnung der Wahrscheinlichkeit, dass ein Dokument zu einer Klasse gehört • => Das Dokument wird in jene Klasse einsortiert, die am warscheinlichsten dieses Dok. erzeugt hat
3. Naiver Bayes'scher Klassifikator • Vereinfachende Annahmen: • z.B. „konditionale Unabhängigkeitsannahme“ • ein auftretendes Wort im Dokument ist unabhägig vom Vorgänger • Ist zwar falsch, hat sich in der Praxis aber als sinnvoll erwiesen • => einfachere Berechnung der Wahrscheinlichkeiten: • Wahrscheinlichkeit für Klassen zurückführbar auf die für das Erzeugen der Wörter
4. Kollaboratives Filtern • Daten werden individuell gefiltert • Modelle werden erstellt • Content based filtering: • Rating-Verfahren und Beschreibungen des Benutzers • Collaborative filtering • Daten anderer/ähnlicher Benutzer werden herangezogen • Unabhängig von Daten • Es wird präsentiert, was andere Benutzer, die gleiche Ratings hatten gut gefunden haben • z.B. bei amazon.de gibt's beides
4. Kollaboratives Filtern • Beispiel Bücherkauf: • Bücher: Karl: Jan: Paula: Frank: • Java-Einführung X - - ? • Der Klient X X - X • Das Tee-Buch - X - ? • Bilderbuch - - X ? • LaTeX X - - ?
Literatur: • 1. Thorsten Joachims. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. School of Computer Science, Carnegie Mellon University, Pittsburgh 1996 • 2. Thorsten Joachims. Diplomarbeit: Einsatz eines intelligenten, lernenden Agenten für das World Wide Web. Universität Dortmund, 1996 • 3. J.J. Rocchio. Relevance Feedback in Information Retrieval in The SMART Retrieval System: Experiments in Automatic Document Processing, Ch. 14, Prentice Hall Inc., 1971 • 4. Koji Miyahara/ Michael J. Pazzani. Collaborative Filtering with the Simple Bayesian Classifier at Pacific Rim International Conference on Artificial Intelligence, 2000
Vielen Dank für Eure Aufmerksamkeit ;-) Der Rocchio Algorithmus