50 likes | 228 Views
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse. Bestimmung der Klassen durch Merkmale (Attribute). Dok 1 Courths-Mahler, Hedwig : Der Arzt gab der Prinzessin einen Kuss . Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm :
E N D
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Bestimmung der Klassen durch Merkmale (Attribute) Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin einen Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. LE 10
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin eine Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. Zuordnung zu Klasse: Märchen 1 Krimi 2 Schnulze 3 Zuordnung zu Klasse: Märchen 4 Krimi 0 Schnulze 0
Zwei Methoden der Berechnung der Zuordnung einer Klasse zu einem Dokument • Der naive Bayes Algorithmus / auch Relation Z • Mit welcher Wahrscheinlichkeit wird einem Dokument d die Klasse Cj zugeordnet? • P(Attribut i in Cj)= Gewicht Attribut i (Cj) / Gewicht Attribute in Cj • In 100 Dokumenten der Klasse Märchen kommt Hexe 50 x vor • Wahrscheinlichkeit von Hexe für Märchen • 50/100 • „nächster Nachbar“ Klassifikation • Wird ein neues Dokument klassifiziert, so werden die x ähnlichsten Trainingsdokumente über ein Ähnlichkeitsmaß bestimmt • Das neue Dokument wird jener Klasse zugeteilt, aus der die meisten dieser Trainingsdokumente stammen. • Die 10 ähnlichsten Dok von Dok x werden errechnet • Von diesen 10 fallen 8 in die Klasse Krimi und 4 in die Klasse Märchen • = 8/10 -> 0,8 für Krimi und 4/10 -> 0,4 für Märchen
Analyse der Klassifikation • Ermittlung der Merkmale (Einträge im invertierten Dateisystem) der Dokumente, die manuell (oder durch Clustering) einer Klasse zugeordnet wurden • Klasse Märchen: • Hexe • Teufel • Gut • Böse • Zauberer • Hänsel • Gretel • Prinzessin • Bestimmung von Wahrscheinlichkeiten • Wenn in einem Dokument Hexe vorkommt, wird es zu 80% als Märchen klassifiziert • Wenn in einem Dokument gut vorkommt, wird es zu 25% als Märchen klassifiziert • Bestimmung eines Vektorzentroids für die Klasse Märchen
Neues Dokument kommt an Dokument analysieren: gewichteten Index erstellen Nachschauen, in welchen Klassen die Wörter aus dem Index des Dokumentes vorkommen Wort, das in keiner Klasse vorkommt, wird ignoriert Klassen nacheinander durchgehen Wahrscheinlichkeit, mit der das Wort in Dokumenten in der Klasse vorkommt auslesen Den Wahrscheinlichkeitswert des Merkmals für die Klasse mit dem Gewicht des Dokumentvektors multiplizieren Diesen Prozess für alle Merkmale der Klasse wiederholen Ergebnis errechnen Dokument der Klasse mit dem höchsten Wert zuordnen Text „Hänsel und Gretel“ Gewichteten Index erstellen (Dokumentvektor) Für jeden Indexeintrag nachschauen, in welcher Klasse er vorkommt Pfefferkuchenhaus ignorieren, da in keiner Klasse Hexe kommt in Märchen und Frauenbewegung vor Nacheinander alle Merkmale der Klasse Märchen und der Klasse Frauenbewegung mit den Merkmalen des neuen Dokuments vergleichen Märchen Hexe hat für Märchen einen Wert von 0,50 Gewicht von Hexe in Dokumentvektor 0,75 Wert aus Klassifikation mit Wert aus Dokument multiplizieren 0,50*0,75 Frauenbewegung Hexe hat für Frauenbewegung Wert von 0,15 Wert aus Klassifikation mit Wert aus Dokument multiplizieren 0,15*0,75 Die einzelnen Werte zu einem Dokumentvektor aufaddieren Beispiel Märchen: Hexe 0,375 Fee 0 Köning 0,1 Prinzessin 0,2 = 0,675 Beispiel Frauenbewegung Hexe 0,1125 Heilerin 0,5 Feminismus 0,5 Pendel 0,25 =1,362 Dokument der Klassse Frauenbewegung zurechnen Wahrscheinlichkeitsansatz jedes Dokument für jede Klasse neu