1 / 12

Automatische Klassifikation

Automatische Klassifikation. = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen über inhaltlich ähnliche Dokumente geben Browsing in der Ergebnismenge erlauben. Anwendungsbeispiel Spamerkennung.

starr
Download Presentation

Automatische Klassifikation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: • Dem Nutzer Informationen über inhaltlich ähnliche Dokumente geben • Browsing in der Ergebnismenge erlauben Spree/Worg2/LE 10

  2. Anwendungsbeispiel Spamerkennung Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt? Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Spree/Worg2/LE 10

  3. Zwei Verfahren • Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument • ‚Lernende Verfahren‘ der automatischen Klassifikation anhand von Trainingsdokumenten Spree/Worg2/LE 10

  4. 1.Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument • Merkmale eine Klassifikation werden festgelegt • Merkmale können einer Klasse zugeordnete Wörter sein • In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert • Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen • Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen Spree/Worg2/LE 10

  5. Zwei Phasen der Klassifikation von Dokumenten (Quelle: Robert Hoffmann: http://www.iicm.edu/cguetl/education/thesis/rhoff/dagegliedert/Hoffmann_DA_8.htm> Spree/Worg2/LE 10

  6. Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sexagain. Spree/Worg2/LE 10

  7. Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sexagain. Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Spree/Worg2/LE 10

  8. Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Mail a ist : = 20% Spam = 80% kein Spam  Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam Spree/Worg2/LE 10

  9. 2. Lernende Verfahren der automatischen Klassifikation • Voraussetzung: • Bestand von Trainingsdokumenten, die intellektuell Klassen zugeordnet wurden, ist vorhanden • Vorgehen • Analyse der Trainingsdokumente • Ermittlung der Eigenschaften der Dokumente, die bereits einer Klasse zugeteilt wurden • Eigenschaften sind häufig das Vorkommen und Gewicht bestimmter Indextermini in den Dokumenten • Berechnung der Wahrscheinlichkeit, dass ein bestimmtes Dokument, in dem das Wort x vorkommt, der Klasse y zugeordnet wird Spree/Worg2/LE 10

  10. Berechnung der Vorkommenswahrscheinlichkeit von Wörtern in Klassen Berechnung der Relation Z / Naiver Bayes Algorithmus: • Anzahl der Dokumente mit Wort x, die Klasse y zugeteilt sind /Anzahl der Dokumente, in denen x vorkommt • Beispiel automatische Erkennung von Spam emails: • Im Trainingsbestand sind 8 Dokumente mit Wort „Viagra “ der Klasse Spam zugeteilt. • Viagra kommt insgesamt in 10 emails vor. • = 8/10 -> 0,8 • Die Wahrscheinlichkeit, dass ein Dokument mit „Viagra “ der Klasse Spam zugeordnet wird, liegt bei 0,8 • 2 Dokumente mit „Kuss“ sind der Klasse Spam zugeteilt. • „Kuss“ kommt in 50 Dokumenten vor. • =2/50 ->0,04 •  Die Wahrscheinlichkeit, dass ein Dokument mit „Kuss “ der Klasse Spam zugeteilt wird, liegt nur bei 0,04 Spree/Worg2/LE 10

  11. Spree/Worg2/LE 10

  12. Zu Hause • Bitte lesen Sie zur nächsten Woche die Lerneinheit 10 nach. • Notieren Sie Verständnisfragen • Erklären Sie an einem eigenen Beispiel, was ein Vektorzentroid ist • Bereiten Sie Step 4 so vor, dass Sie den Prozess der automatischen Klassifikation in einem Flussdiagramm darstellen können Spree/Worg2/LE 10

More Related