20 likes | 106 Views
Term-Gewichtung. Ziel: welche Spezifizität hat ein Term Allgemein / in Bezug auf die gesamte Kollektion In Bezug auf ein Dokument Frequenz allein reicht nicht aus Sehr spezifisch: Terme, die bezogen auf die Gesamtkollektion relativ selten, in einzelnen Dokumenten aber relativ häufig vorkommen
E N D
Term-Gewichtung • Ziel: welche Spezifizität hat ein Term • Allgemein / in Bezug auf die gesamte Kollektion • In Bezug auf ein Dokument • Frequenz allein reicht nicht aus • Sehr spezifisch: Terme, die bezogen auf die Gesamtkollektion relativ selten, in einzelnen Dokumenten aber relativ häufig vorkommen • TF * IDF Gewichtung: • tfik: Frequenz von Term k in Dokument i • Idfk: log(N/nk) (nk = Anzahl der Dokumente mit k, N = Gesamtzahl der Dokumente)
Hausaufgabe 1 • Berechnung der TF-IDF Werte für das Vokabular einer kleinen Kollektion • Erstellen Sie eine kleine Textkollektion von Zeitungsartikeln, indem Sie einige Artikel von www.sueddeutsche.de herunterladen • Berechnen Sie für die Wörter, die in dieser Kollektion vorkommen, die TF_IDF Werte, indem Sie entweder • Ein Programm schreiben, dass eine Textkollektion als Input nimmt und die TF_IDF Werte für alle Wörter ausgibt • Alles manuell auszählen – nicht zu empfehlen! • Welches sind in Ihrer Kollektion die sehr spezifischen Wörter? Was sind die unspezifischsten Wörter? • Abgabe: per e-mail bis spätestens 27.4., 9 Uhr an pmaier@cis.uni-muenchen.de. Bitte als Betreff/Subject folgendes verwenden: Aufgaben ML_05 NUMMER IHR_NAME