120 likes | 236 Views
Automatische Klassifikation. = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen über inhaltlich ähnliche Dokumente geben Browsing in der Ergebnismenge erlauben. Anwendungsbeispiel Spamerkennung.
E N D
Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: • Dem Nutzer Informationen über inhaltlich ähnliche Dokumente geben • Browsing in der Ergebnismenge erlauben Spree/Worg2/LE 10
Anwendungsbeispiel Spamerkennung Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt? Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Spree/Worg2/LE 10
Zwei Verfahren • Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument • ‚Lernende Verfahren‘ der automatischen Klassifikation anhand von Trainingsdokumenten Spree/Worg2/LE 10
1.Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument • Merkmale eine Klassifikation werden festgelegt • Merkmale können einer Klasse zugeordnete Wörter sein • In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert • Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen • Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen Spree/Worg2/LE 10
Zwei Phasen der Klassifikation von Dokumenten (Quelle: Robert Hoffmann: http://www.iicm.edu/cguetl/education/thesis/rhoff/dagegliedert/Hoffmann_DA_8.htm> Spree/Worg2/LE 10
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sexagain. Spree/Worg2/LE 10
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sexagain. Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Spree/Worg2/LE 10
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Mail a ist : = 20% Spam = 80% kein Spam Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam Spree/Worg2/LE 10
2. Lernende Verfahren der automatischen Klassifikation • Voraussetzung: • Bestand von Trainingsdokumenten, die intellektuell Klassen zugeordnet wurden, ist vorhanden • Vorgehen • Analyse der Trainingsdokumente • Ermittlung der Eigenschaften der Dokumente, die bereits einer Klasse zugeteilt wurden • Eigenschaften sind häufig das Vorkommen und Gewicht bestimmter Indextermini in den Dokumenten • Berechnung der Wahrscheinlichkeit, dass ein bestimmtes Dokument, in dem das Wort x vorkommt, der Klasse y zugeordnet wird Spree/Worg2/LE 10
Berechnung der Vorkommenswahrscheinlichkeit von Wörtern in Klassen Berechnung der Relation Z / Naiver Bayes Algorithmus: • Anzahl der Dokumente mit Wort x, die Klasse y zugeteilt sind /Anzahl der Dokumente, in denen x vorkommt • Beispiel automatische Erkennung von Spam emails: • Im Trainingsbestand sind 8 Dokumente mit Wort „Viagra “ der Klasse Spam zugeteilt. • Viagra kommt insgesamt in 10 emails vor. • = 8/10 -> 0,8 • Die Wahrscheinlichkeit, dass ein Dokument mit „Viagra “ der Klasse Spam zugeordnet wird, liegt bei 0,8 • 2 Dokumente mit „Kuss“ sind der Klasse Spam zugeteilt. • „Kuss“ kommt in 50 Dokumenten vor. • =2/50 ->0,04 • Die Wahrscheinlichkeit, dass ein Dokument mit „Kuss “ der Klasse Spam zugeteilt wird, liegt nur bei 0,04 Spree/Worg2/LE 10
Zu Hause • Bitte lesen Sie zur nächsten Woche die Lerneinheit 10 nach. • Notieren Sie Verständnisfragen • Erklären Sie an einem eigenen Beispiel, was ein Vektorzentroid ist • Bereiten Sie Step 4 so vor, dass Sie den Prozess der automatischen Klassifikation in einem Flussdiagramm darstellen können Spree/Worg2/LE 10