1 / 11

Aufgaben II

Aufgaben II. Dokumente im VSM Ranking Term-Term-Korrelation Relevance Feedback Termgewichtung. 1. Vector Space Model. Grundlagen Was ist der Unterschied zwischen Boolschen R. und VSM R.? Warum erlaubt vsm statt Anfragen auch Dokumente als Anfrage?

Download Presentation

Aufgaben II

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aufgaben II • Dokumente im VSM • Ranking • Term-Term-Korrelation • Relevance Feedback • Termgewichtung Seminar Textmining WS 06/07

  2. 1. Vector Space Model Grundlagen • Was ist der Unterschied zwischen Boolschen R. und VSM R.? • Warum erlaubt vsm statt Anfragen auch Dokumente als Anfrage? • Gegeben seien drei Dokumente. Repräsentieren Sie diese im VSM. D1: Dies ist Dokument Nummer Eins. D2: Und dies dies ist ein ganz anderes Dokument D3: Von Pferden und anderen Haustieren handelt dieses Schriftstück. • Gegeben sei nun Anfrage „dies Dokument“. Geben Sie ein Ranking der drei Dokumente ohne Berücksichtigung der Term-Term-korrelation. • Wie sieht das Ranking für „dies Nummer“ aus? Seminar Textmining WS 06/07

  3. 1.1. Dokumente im VSM 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere 1 2 3 4 5 6 7 8 9 10 11 12 13 D1 = (1 1 1 1 1 0 0 0 0 0 0 0 0) D2 = (2 1 1 0 1 1 1 1 0 0 0 0 0) D3 = (1 1 1 0 0 0 1 0 0 1 1 1 1) Seminar Textmining WS 06/07

  4. 2. Ranking • Dies Dokument: 1 dies(4), 2 ist(3), 3 dokument(3), 4 nummer, 5 eins, 6 und, 7 ein(2), 8 ganz, 9 anderes, 10 aber, 11 hier, 12 über, 13 Haustiere 1 2 3 4 5 6 7 8 9 10 11 12 13 D1 = (1 1 1 1 1 0 0 0 0 0 0 0 0) D2 = (2 1 1 0 1 1 1 1 0 0 0 0 0) D3 = (1 1 1 0 0 0 1 0 0 1 1 1 1) Dn = a1 a2 a3 … Q1 = (1 0 1 0 0 0 0 0 0 0 0 0 0) Q2 = (1 0 0 1 0 0 0 0 0 0 0 0 0) Qn = q1 q2 q3 • Sim(D1,Q1)= 1*1 + 1*1 = 2 • Sim(D2,Q1)= 2*1 + 1*1 = 3 • Sim(D3,Q1)= 1*1 + 1*1 = 2 Ranking={D2,{D1,D3}} • Sim(D1,Q2)= 1*1 + 1*1 = 2 • Sim(D2,Q2)= 2*1 + 0*1 = 2 • Sim(D3,Q2)= 1*1 + 0*1 = 1 Ranking={{D1,D2},D3} Seminar Textmining WS 06/07

  5. 3. Term-Term-Korrelation Gegeben sei folgender Ausschnitt für die Term-Term-Korrelation: Berechnen Sie nun die Rankings der drei Dokumente für beide Anfragen! • ai = Dokumentverktorwert • qi = Queryvektorwert • Summe ai*qi*Tij • D = (1 1 1 1 1 0 0 … ) • Q= (1 0 1 0 … ) • Sim(D1,Q1)= (1T1 + 1T2 + 1T3 + 1T4+1T5)(1T1 + 1T3)=3.3 T1,1 + T1,2 + T1,3 … + T3,1 + T3,2 1 0.5 0.8 0.8 0.5 1 = 4.6 • Sim(D2,Q1)= (2*T1 + T2 + T3 +T5 +T6 +T7 +T8)(T1 +T3) = 2T1,1 + 1T1,2 + 1T1,3 + 2T3,1 + 1T3,2 + 1T3,3 = 2 + 0.5 + 0.8 + 1.6 + 0.5 + 1 = 6.4 Seminar Textmining WS 06/07

  6. 4. Relevance Feedback • Erläutern Sie die folgenden Begriffe: • Explicit feedback • Implicit feedback • Blind feedback • Erläutern Sie den Rocchio Algorithmus: (von Jimmy Lin Folien, der diese wiederum aus Doug Ouard’s Buch hat) qm = modified query vector; q0 = original query vector; α,β,γ: weights (hand-chosen or set empirically); Dr = set of known relevant doc vectors; Dnr = set of known irrelevant doc vectors Seminar Textmining WS 06/07

  7. 5. Termgewichtung • Gegeben sei Anfrage „dies Dokument“. • Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. • Welche Kriterien legen Sie dabei zugrunde? Seminar Textmining WS 06/07

  8. 5.1. Termgewichtung • Gegeben sei Anfrage „dies Dokument“. • Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. • Dokument ist wichtiger als dies • Welche Kriterien legen Sie dabei zugrunde? • Dokument hat mehr Bedeutung, ist konkreter • Wie lassen sich diese Kriterien formalisieren? Seminar Textmining WS 06/07

  9. 5.1. Termgewichtung • Gegeben sei Anfrage „dies Dokument“. • Gewichten Sie die anfrageterme entsprechend ihrer Wichtigkeit. • Dokument ist wichtiger als dies • Welche Kriterien legen Sie dabei zugrunde? • Dokument hat mehr Bedeutung, ist konkreter • Wie lassen sich diese Kriterien formalisieren? • Termfrequency tfij= Freq. Von Term i in Dok. j • Ausserdem, in je weniger verschiedenen Dokumenten ein Term vorkommt, umso spezieller ist es fuer das vorliegende Dokument, daher inverse document frequency: logN/n +1 • Tf * idf hat sich bislang als bestes Mass herausgestellt. Seminar Textmining WS 06/07

  10. Seminar Textmining WS 06/07

  11. Seminar Textmining WS 06/07

More Related