90 likes | 221 Views
Aufgaben V. Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri. 1. Klassifikation. Welche Sorten von Klassifikationen gibt es? Erl äutern Sie Facettenklassifikation, Registerklassifikation und Dezimalklassifikation?
E N D
Aufgaben V • Bemerkung zu clustering • Probabilistic IR • Indexierung von Dokumenten • Thesauri Seminar Textmining WS 06/07
1. Klassifikation • Welche Sorten von Klassifikationen gibt es? • Erläutern Sie Facettenklassifikation, Registerklassifikation und Dezimalklassifikation? • Lässt sich eine Polyhierarchie stets in eine Monohierarchie überführen? Gegeben seien drei Dokumente und zwei Klassen. • D1 = T1 T1 • D2 = T2 T2 • D3 = T1 T2 T3 • K1 = T1 • K2 = T2 Klassifizieren Sie die Dokumente in die zwei Klassen unter berücksichtigung einer Term-Term Korrelationsmatrix Seminar Textmining WS 06/07
2. Probabilistic Information Retrieval • Im binary independence model, wenn P(rel), wie gross ist dann P(nrel)? • Es werden Wahrscheinlichkeiten genutzt, um auszurechnen, wie ein Dokument zu einer query passt • f(d,q) liefert einen Wert, der aussagt, wie sehr d zu q passt. Dadurch lassen sich alle d zu q ranken. • f(d,q) = log (Pq(rel|(d1,…,dn)) / (1-Pq(rel…))) Um aber Pq abschaetzen zu können wird bedingte Unabhängigkeit angenommen, somit • f(d,q) = Summei di log ((pi(1-qi)) / (qi(1-pi)) ) • Dabei ist pi die Wkt. Dass ein relevantes Dokument Term i beinhaltet • Und qi ist die Wkt., dass ein irrelevantes Dok. Term i beinhaltet • Nach Schätzung durch Relevanzurteile dann nur noch einsetzen Seminar Textmining WS 06/07
2.1. Daten Berechnen sie, wie sehr Dokumente zu query passen, wenn Relevanz, Dokumente und Terme gegeben sind. T1 T2 T3 T4 T5 rel(q1) D1 1 1 1 0 0 n D2 1 1 0 0 1 n D3 0 0 1 1 1 n D4 0 1 1 0 0 r D5 1 1 0 0 0 r D6 1 0 1 0 1 r D7 0 1 0 1 0 n pi1 (ri/r) qi1 (fi-ri)/(f-r) • fi ist dok. mit i - f ist zahl dokumente • ri ist rel. mit i - r ist zahl rel. dokum. q1 1 1 0 0 1 • f(d,q) = Summei dUNDqi log ((pi(1-qi)) / (qi(1-pi)) ) f(d1,q1) = f(d2,q1) = f(d3,q1) = F(d4,q1) = F(d5,q1) = F(d6,q1) = F(d7,q1) = Seminar Textmining WS 06/07
2.2. Daten T1 T2 T3 T4 T5 rel(q1) D1 1 1 1 0 0 n D2 1 1 0 0 1 n D3 0 0 1 1 1 n D4 0 1 1 0 0 r D5 1 1 0 0 0 r D6 1 0 1 0 1 r D7 0 1 0 1 0 n pi1 2/3 2/3 2/3 0 1/3 (ri/r) qi1 2/4 3/4 2/4 2/4 2/4 (fi-ri)/(f-r) • fi ist dok. mit i - f ist zahl dokumente • ri ist rel. mit i - r ist zahl rel. dokum. q1 1 1 0 0 1 f(d1,q1) = Si di log ((pi(1-qi)) / (qi(1-pi)) ) %aber nur da, wo Ti und Di != 0 = 1*log(0.6*0.5/0.5*0.3) + 1*log(0.6*0.25/0.75*0.3) +0 + 0 + 0 = = 0.3 + -0.18 + 0 + 0 + 0 = 0.12 f(d2,q1) = 0.3 + -0.18 + 0 + 0 + -0.3 = -0.18 f(d3,q1) = 0 + 0 + 0 + 0 + -0.3 = -0.3 F(d4,q1) = 0 + -0.18 + 0 + 0 + 0 = -0.18 F(d5,q1) = 0.3 + -0.18 + 0 + 0 + 0 = 0.12 F(d6,q1) = 0.3 + 0 + 0 + 0 + -0.3 = 0 F(d7,q1) = 0 + -0.18 + 0 + 0 + 0 = -0.18 Seminar Textmining WS 06/07
3. Indexierung von Dokumenten • Welche Indexierungsvarianten sind Ihnen bekannt? • Welche Terme sollen im Index stehen? • Welche Faktoren spielen eine negative Rolle? Seminar Textmining WS 06/07
3.1. Indexierung von Dokumenten • Welche Indexierungsvarianten sind Ihnen bekannt? • Titelbasiertes indexieren • Schlagwörterbasiert • Abstract • Ordnungssystem (Klassifikationssystem) • Welche Terme sollen im Index stehen? • Welche Faktoren spielen eine negative Rolle? • Ambiguität • Historisch verwandte Begriffe • Metaphorische Benutzung • Fachterminologie • Unspezifische Terme • Verwendung der Terme bei Recherche und bei Indexierung Seminar Textmining WS 06/07
3.2. WordNet 00003226 03 n 02 organism 0 being 0 055 @ 00003009 n 0000 + 02536315 v 0201 -c 00270602 a 0000 -c 00323358 a 0000 -c 01615477 a 0000 ~ 00004358 n 0000 ~ ... 01242256 05 n 01 conspecific 0 001 @ 00003226 n 0000 | an organism belonging to the same species as another organism doc Seminar Textmining WS 06/07