220 likes | 365 Views
Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM). Karin Haenelt 15.1.2014. Abkürzungen. Vektorraummodell Annahme: Indexterme sind voneinander unabhängig. Formale Darstellung der Annahme der Unabhängigkeit
E N D
Generalisiertes Vektorraummodell(GeneralizedVector Space Model, GSVM) Karin Haenelt 15.1.2014
VektorraummodellAnnahme: Indexterme sind voneinander unabhängig • Formale Darstellung der Annahme der Unabhängigkeit • Darstellung der Terme durch Termvektoren(Dimensionen sind Terme) • Kennzeichnung der Abhängigkeiten: • falls Term j von Term i abhängig ist • andernfalls • Annahme des Vektorraummodells: • kii = 1 • kij = 0 ; ij
VektorraummodellAnnahme: Indexterme sind voneinander unabhängig Baeza-Yates/Ribeiro-Neto, 1999, 41 Definition: Sei ein Vektor zum Indexterm ki. Die Annahme der Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der Vektoren linear unabhängig ist und eine Basis für den betrachteten Unterraum bildet. Die Dimension dieses Raumes entspricht der Anzahl t der Indexterme in der Dokumentsammlung. Zumeist Annahme der paarweisen Orthogonalität zwischen Indextermen, so dass für jedes Paar und gilt:
VektorraummodellDokument-Term-Vektoren • Dokumentrepräsentationen sind Linearkombinationen von Termvektoren • sei { } die Menge der Termvektoren, 1 ≤ i≤t • sei n die Anzahl der Dokumente in einer Kollektion, 1 ≤ j ≤n • sei dj ein Dokument der Kollektion • dann gibt es für jedes dj in der Kollektion eine Linearkombination von Termvektoren, die dj repräsentiert • Beispiel • Linearkombination • Tupel-Schreibweise
VektorraummodellBeispiel: Ranking-Ergebnis für Beispieldokumente
Generalisiertes Vektorraummodell S. K. M. Wong, WoijciechZiarko, Patrick C. N. Wong (1985). GeneralizedVectorSpaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25 Indextermekönnenabhängigsein
Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig Baeza-Yates/Ribeiro-Neto, 1999, 42 • Formale Darstellung der Annahme der Abhängigkeit • Termvektoren • sind keine orthogonalen Vektoren • bilden nicht die Basis des Vektorraumes • sind aus kleineren Komponenten zusammengesetzt, die jeweils aus einer Kollektion hergeleitet werden • orthonormaleBasis des Generalisierten Vektorraumes: • Modellierung der Term-Kookkurrenzen durch Minterme • Einführung einer Menge paarweise orthogonaler Vektoren , die den Mintermen zugeordnet werden • die Menge dieser paarweise orthogonalen Vektoren bildet die orthonormaliserte Basis des Generalisierten Vektorraumes
Generalisiertes Vektorraummodell Modellierung von Term-Kookkurrenzmustern durch Minterme … Dokumente, die Term 1 und Term 2 enthalten … Dokumente, die alle Terme enthalten wenn in einer Dokumentkollektion Dokumente enthalten sind,deren Termkookkurrenz einem Mintermmini entspricht, gilt der Mintermmini als aktiv.
Generalisiertes Vektorraummodell Mintermenmini, Vektoren vi und Zuordnung der Vektoren vi zu den Mintermenmini Minterme modellieren Termkookkurrenzmuster Vektoren vi, orthonormale Basis des Vektorraumes
MintermDefinition Minterme modellieren Termkookkurrenzmuster • Definition: Sei (B,+,,,0,1) eine Boolesche Algebra. Seien x1, x2, …, xnn Variablen. Eine Konjunktion (Produkt) der Form y1y2 … yn mit yi = xi oder xi für 1 ≤ i ≤ n heißt Minterm in n Variablen x1, x2, … ,xn. ∎ • n Variablen erzeugen 2nMinterme. • Beispiel für drei Variablen • Minterme erfüllen die folgendenBedingungen • mini minj = 0 für i j
Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig Baeza-Yates/Ribeiro-Neto, 1999, 42 Definition: Sei die Menge der Indexterme einer Kollektion, sei wi,j das einem Term-Dokumentpaar [ki,dj] zugeordnete Gewicht.Wenn die Gewichte alle binär sind, können alle möglichen Term-Kookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge von 2tMintermen repräsentiert werden mit min1 = (0,0,…,0), min2 = (1,0,…,0), …, min2t = (1,1, …, ).Sei gi(mini) eine Funktion, die das Gewicht {0,1} des Indexterms ki im Mintermminj liefert.
Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig Baeza-Yates/Ribeiro-Neto, 1999, 42 Definition: ist die folgende Menge von Vektoren und jeder Vektor ist dem entsprechenden Mintermmini zugeordnet. Es gilt . Die Vektoren sind paarweise othogonal. Die Menge der Vektoren bildet die orthonormale Basis des Generalsierten Vektorraummodells
Generalisiertes Vektorraummodell Berechnung des Termkookkurrenzfaktorscir Gewicht {0,1} von Term l in Dokument j = Termokkurrenz von Term l in Dokument j Termokkurrenzmuster von Dokument j Gewicht {0,1} von Term l in Mintermminr Termokkurrenzmuster von Mintermminr Termokkurrenzmuster von Dokument j entspricht Mintermminr l
Generalisiertes Vektorraummodell Bestimmung des Termvektorski zu Term ki Baeza-Yates/Ribeiro-Neto, 1999, 43 l
Generalisiertes Vektorraummodell Beispiel Wong, Ziarko, Wong, 1985 V: 6
Generalisiertes Vektorraummodell Beispiel – Berechnung des Termkookkurrenzfaktorsci,r Wong, Ziarko, Wong, 1985 V: 6
Generalisiertes Vektorraummodell Beispiel: Berechnung des Termvektorski zu Term ki Wong, Ziarko, Wong, 1985 V: 6
Generalisiertes VektorraummodellRanking Baeza-Yates/Ribeiro-Neto, 1999, 43 kombiniert die Gewichte des Standard-Vektorraummodells wi,j (Term-Dokument-Gewicht) mit dem Termkorrelationsfaktorci,r Umrechnung der Vektoren des klassischen Vektorraummodells undin Vektoren des Generalisierten Vektorraummodells mit Formel Anwendung der Rankingfunktion auf diese Vektoren mit Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell
Generalisiertes VektorraummodellBeispiel – Umrechnung der Dokumentvektoren
Generalisiertes VektorraummodellBedeutung Baeza-Yates/Ribeiro-Neto, 1999, 44 • unklar, in welchen Fällen das Generalisierte Vektorraummodell bessere Ergebnisse liefert als das Standard-Vektormodell • erheblich höherer Rechenaufwand als für das Standard-Vektorraummodell • Anzahl der aktiven Minterme kann proportional zur Anzahl der Dokumente in der Kollektion werden • alle aktivenMinterme müssen bei der Berechnung der ki-Vektoren berücksichtigt werden (maximale Anzahl = Anzahl der Dokumente in der Kollektion) • Einführung einer Formalisierung, die theoretisch interessant ist
Literatur Wong, S. K. M., WoijciechZiarko, Patrick C. N. Wong (1985). GeneralizedVectorSpaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25 Wong, S. K. M., WoijciechZiarko, Patrick C. N. Wong (1985V). GeneralizedVectorSpaces Model in Information Retrieval. Vortragsfolien SIGIR 1985. http://berlin.csie.ntnu.edu.tw/PastCourses/2003F-InformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Model%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier(Eds.) (2010). Modern Information Retrieval. Essex: Addison Wesley Longman Limited.