1 / 22

Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM)

Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM). Karin Haenelt 15.1.2014. Abkürzungen. Vektorraummodell Annahme: Indexterme sind voneinander unabhängig. Formale Darstellung der Annahme der Unabhängigkeit

guang
Download Presentation

Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Generalisiertes Vektorraummodell(GeneralizedVector Space Model, GSVM) Karin Haenelt 15.1.2014

  2. Abkürzungen

  3. VektorraummodellAnnahme: Indexterme sind voneinander unabhängig • Formale Darstellung der Annahme der Unabhängigkeit • Darstellung der Terme durch Termvektoren(Dimensionen sind Terme) • Kennzeichnung der Abhängigkeiten: • falls Term j von Term i abhängig ist • andernfalls • Annahme des Vektorraummodells: • kii = 1 • kij = 0 ; ij

  4. VektorraummodellAnnahme: Indexterme sind voneinander unabhängig Baeza-Yates/Ribeiro-Neto, 1999, 41 Definition: Sei ein Vektor zum Indexterm ki. Die Annahme der Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der Vektoren linear unabhängig ist und eine Basis für den betrachteten Unterraum bildet. Die Dimension dieses Raumes entspricht der Anzahl t der Indexterme in der Dokumentsammlung. Zumeist Annahme der paarweisen Orthogonalität zwischen Indextermen, so dass für jedes Paar und gilt:

  5. VektorraummodellDokument-Term-Vektoren • Dokumentrepräsentationen sind Linearkombinationen von Termvektoren • sei { } die Menge der Termvektoren, 1 ≤ i≤t • sei n die Anzahl der Dokumente in einer Kollektion, 1 ≤ j ≤n • sei dj ein Dokument der Kollektion • dann gibt es für jedes dj in der Kollektion eine Linearkombination von Termvektoren, die dj repräsentiert • Beispiel • Linearkombination • Tupel-Schreibweise

  6. VektorraummodellBeispiel: Ranking-Ergebnis für Beispieldokumente

  7. Generalisiertes Vektorraummodell S. K. M. Wong, WoijciechZiarko, Patrick C. N. Wong (1985). GeneralizedVectorSpaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25 Indextermekönnenabhängigsein

  8. Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig Baeza-Yates/Ribeiro-Neto, 1999, 42 • Formale Darstellung der Annahme der Abhängigkeit • Termvektoren • sind keine orthogonalen Vektoren • bilden nicht die Basis des Vektorraumes • sind aus kleineren Komponenten zusammengesetzt, die jeweils aus einer Kollektion hergeleitet werden • orthonormaleBasis des Generalisierten Vektorraumes: • Modellierung der Term-Kookkurrenzen durch Minterme • Einführung einer Menge paarweise orthogonaler Vektoren , die den Mintermen zugeordnet werden • die Menge dieser paarweise orthogonalen Vektoren bildet die orthonormaliserte Basis des Generalisierten Vektorraumes

  9. Generalisiertes Vektorraummodell Modellierung von Term-Kookkurrenzmustern durch Minterme … Dokumente, die Term 1 und Term 2 enthalten … Dokumente, die alle Terme enthalten wenn in einer Dokumentkollektion Dokumente enthalten sind,deren Termkookkurrenz einem Mintermmini entspricht, gilt der Mintermmini als aktiv.

  10. Generalisiertes Vektorraummodell Mintermenmini, Vektoren vi und Zuordnung der Vektoren vi zu den Mintermenmini Minterme modellieren Termkookkurrenzmuster Vektoren vi, orthonormale Basis des Vektorraumes

  11. MintermDefinition Minterme modellieren Termkookkurrenzmuster • Definition: Sei (B,+,,,0,1) eine Boolesche Algebra. Seien x1, x2, …, xnn Variablen. Eine Konjunktion (Produkt) der Form y1y2 …  yn mit yi = xi oder xi für 1 ≤ i ≤ n heißt Minterm in n Variablen x1, x2, … ,xn. ∎ • n Variablen erzeugen 2nMinterme. • Beispiel für drei Variablen • Minterme erfüllen die folgendenBedingungen • mini  minj = 0 für i  j

  12. Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig Baeza-Yates/Ribeiro-Neto, 1999, 42 Definition: Sei die Menge der Indexterme einer Kollektion, sei wi,j das einem Term-Dokumentpaar [ki,dj] zugeordnete Gewicht.Wenn die Gewichte alle binär sind, können alle möglichen Term-Kookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge von 2tMintermen repräsentiert werden mit min1 = (0,0,…,0), min2 = (1,0,…,0), …, min2t = (1,1, …, ).Sei gi(mini) eine Funktion, die das Gewicht {0,1} des Indexterms ki im Mintermminj liefert.

  13. Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig Baeza-Yates/Ribeiro-Neto, 1999, 42 Definition: ist die folgende Menge von Vektoren und jeder Vektor ist dem entsprechenden Mintermmini zugeordnet. Es gilt . Die Vektoren sind paarweise othogonal. Die Menge der Vektoren bildet die orthonormale Basis des Generalsierten Vektorraummodells

  14. Generalisiertes Vektorraummodell Berechnung des Termkookkurrenzfaktorscir Gewicht {0,1} von Term l in Dokument j = Termokkurrenz von Term l in Dokument j Termokkurrenzmuster von Dokument j Gewicht {0,1} von Term l in Mintermminr Termokkurrenzmuster von Mintermminr Termokkurrenzmuster von Dokument j entspricht Mintermminr l

  15. Generalisiertes Vektorraummodell Bestimmung des Termvektorski zu Term ki Baeza-Yates/Ribeiro-Neto, 1999, 43 l

  16. Generalisiertes Vektorraummodell Beispiel Wong, Ziarko, Wong, 1985 V: 6

  17. Generalisiertes Vektorraummodell Beispiel – Berechnung des Termkookkurrenzfaktorsci,r Wong, Ziarko, Wong, 1985 V: 6

  18. Generalisiertes Vektorraummodell Beispiel: Berechnung des Termvektorski zu Term ki Wong, Ziarko, Wong, 1985 V: 6

  19. Generalisiertes VektorraummodellRanking Baeza-Yates/Ribeiro-Neto, 1999, 43 kombiniert die Gewichte des Standard-Vektorraummodells wi,j (Term-Dokument-Gewicht) mit dem Termkorrelationsfaktorci,r Umrechnung der Vektoren des klassischen Vektorraummodells undin Vektoren des Generalisierten Vektorraummodells mit Formel Anwendung der Rankingfunktion auf diese Vektoren mit Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell

  20. Generalisiertes VektorraummodellBeispiel – Umrechnung der Dokumentvektoren

  21. Generalisiertes VektorraummodellBedeutung Baeza-Yates/Ribeiro-Neto, 1999, 44 • unklar, in welchen Fällen das Generalisierte Vektorraummodell bessere Ergebnisse liefert als das Standard-Vektormodell • erheblich höherer Rechenaufwand als für das Standard-Vektorraummodell • Anzahl der aktiven Minterme kann proportional zur Anzahl der Dokumente in der Kollektion werden • alle aktivenMinterme müssen bei der Berechnung der ki-Vektoren berücksichtigt werden (maximale Anzahl = Anzahl der Dokumente in der Kollektion) • Einführung einer Formalisierung, die theoretisch interessant ist

  22. Literatur Wong, S. K. M., WoijciechZiarko, Patrick C. N. Wong (1985). GeneralizedVectorSpaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25 Wong, S. K. M., WoijciechZiarko, Patrick C. N. Wong (1985V). GeneralizedVectorSpaces Model in Information Retrieval. Vortragsfolien SIGIR 1985. http://berlin.csie.ntnu.edu.tw/PastCourses/2003F-InformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Model%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier(Eds.) (2010). Modern Information Retrieval. Essex: Addison Wesley Longman Limited.

More Related