110 likes | 208 Views
Aufgaben II. Dokumente im VSM Ranking Term-Term-Korrelation Relevance Feedback Termgewichtung. 1. Vector Space Model. Grundlagen Was ist der Unterschied zwischen Boolschen R. und VSM R.? Warum erlaubt vsm statt Anfragen auch Dokumente als Anfrage?
E N D
Aufgaben II • Dokumente im VSM • Ranking • Term-Term-Korrelation • Relevance Feedback • Termgewichtung Seminar Textmining WS 06/07
1. Vector Space Model Grundlagen • Was ist der Unterschied zwischen Boolschen R. und VSM R.? • Warum erlaubt vsm statt Anfragen auch Dokumente als Anfrage? • Gegeben seien drei Dokumente. Repräsentieren Sie diese im VSM. D1: Dies ist Dokument Nummer Eins. D2: Und dies dies ist ein ganz anderes Dokument D3: Von Pferden und anderen Haustieren handelt dieses Schriftstück. • Gegeben sei nun Anfrage „dies Dokument“. Geben Sie ein Ranking der drei Dokumente ohne Berücksichtigung der Term-Term-korrelation. • Wie sieht das Ranking für „dies Nummer“ aus? Seminar Textmining WS 06/07
1.1. Dokumente im VSM 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere 1 2 3 4 5 6 7 8 9 10 11 12 13 D1 = (1 1 1 1 1 0 0 0 0 0 0 0 0) D2 = (2 1 1 0 1 1 1 1 0 0 0 0 0) D3 = (1 1 1 0 0 0 1 0 0 1 1 1 1) Seminar Textmining WS 06/07
2. Ranking • Dies Dokument: 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere 1 2 3 4 5 6 7 8 9 10 11 12 13 D1 = (1 1 1 1 1 0 0 0 0 0 0 0 0) D2 = (2 1 1 0 1 1 1 1 0 0 0 0 0) D3 = (1 1 1 0 0 0 1 0 0 1 1 1 1) Dn = a1 a2 a3 … Q1 = (1 0 1 0 0 0 0 0 0 0 0 0 0) Q2 = (1 0 0 1 0 0 0 0 0 0 0 0 0) Qn = q1 q2 q3 • Sim(D1,Q1)= 1*1 + 1*1 = 2 • Sim(D2,Q1)= 2*1 + 1*1 = 3 • Sim(D3,Q1)= 1*1 + 1*1 = 2 Ranking={D2,{D1,D3}} • Sim(D1,Q2)= 1*1 + 1*1 = 2 • Sim(D2,Q2)= 2*1 + 0*1 = 2 • Sim(D3,Q2)= 1*1 + 0*1 = 1 Ranking={{D1,D2},D3} Seminar Textmining WS 06/07
3. Term-Term-Korrelation Gegeben sei folgender Ausschnitt für die Term-Term-Korrelation: Berechnen Sie nun die Rankings der drei Dokumente für beide Anfragen! • ai = Dokumentverktorwert • qi = Queryvektorwert • Summe ai*qi*Tij • D = (1 1 1 1 1 0 0 … ) • Q= (1 0 1 0 … ) • Sim(D1,Q1)= (1T1 + 1T2 + 1T3 + 1T4+1T5)(1T1 + 1T3)=3.3 T1,1 + T1,2 + T1,3 … + T3,1 + T3,2 1 0.5 0.8 0.8 0.5 1 = 4.6 • Sim(D2,Q1)= (2*T1 + T2 + T3 +T5 +T6 +T7 +T8)(T1 +T3) = 2T1,1 + 1T1,2 + 1T1,3 + 2T3,1 + 1T3,2 + 1T3,3 = 2 + 0.5 + 0.8 + 1.6 + 0.5 + 1 = 6.4 Seminar Textmining WS 06/07
4. Relevance Feedback • Erläutern Sie die folgenden Begriffe: • Explicit feedback • Implicit feedback • Blind feedback • Erläutern Sie den Rocchio Algorithmus: (von Jimmy Lin Folien, der diese wiederum aus Doug Ouard’s Buch hat) qm = modified query vector; q0 = original query vector; α,β,γ: weights (hand-chosen or set empirically); Dr = set of known relevant doc vectors; Dnr = set of known irrelevant doc vectors Seminar Textmining WS 06/07
5. Termgewichtung • Gegeben sei Anfrage „dies Dokument“. • Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. • Welche Kriterien legen Sie dabei zugrunde? Seminar Textmining WS 06/07
5.1. Termgewichtung • Gegeben sei Anfrage „dies Dokument“. • Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. • Dokument ist wichtiger als dies • Welche Kriterien legen Sie dabei zugrunde? • Dokument hat mehr Bedeutung, ist konkreter • Wie lassen sich diese Kriterien formalisieren? Seminar Textmining WS 06/07
5.1. Termgewichtung • Gegeben sei Anfrage „dies Dokument“. • Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. • Dokument ist wichtiger als dies • Welche Kriterien legen Sie dabei zugrunde? • Dokument hat mehr Bedeutung, ist konkreter • Wie lassen sich diese Kriterien formalisieren? • Termfrequency tfij= Freq. Von Term i in Dok. j • Ausserdem, in je weniger verschiedenen Dokumenten ein Term vorkommt, umso spezieller ist es fuer das vorliegende Dokument, daher inverse document frequency: logN/n +1 • Tf * idf hat sich bislang als bestes Mass herausgestellt. Seminar Textmining WS 06/07