180 likes | 310 Views
Verfahren zur Stammformreduktion. (z.B. snowball , vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013. Agenda. Stammformreduktion Nutzen Verfahren Snowball Nachteile & Alternativen Quellen. Stammformreduktion [Inf12].
E N D
Verfahren zur Stammformreduktion (z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013
Agenda Stammformreduktion Nutzen Verfahren Snowball Nachteile & Alternativen Quellen
Stammformreduktion [Inf12] Rückführung verschiedener Varianten eines Wortes auf gemeinsamen Wortstamm Information Retrieval Erster Algorithmus 1968 von Julie Beth Lovins Sprachabhängig Unterschiedliche Algorithmen für verschiedene Sprachen
Wieso? [Lan12] Häufigeres auftreten des Stammwortes mehr Suchergebnisse bessere Suchergebnisse Kleinere Indizierungslisten weniger Speicherplatz notwendig bessere Performance Weniger Redundanz
Anwendungsgebiete Freitextsuche Indexierung (teilweise in Suchmaschinen) Tagging Filterung von Stoppwörtern
Beispiel schneller, schnelle, schnelles, schnellen Stammform: schnell schlechtester, schlecht, schlechter, Stammform: schlecht
Deutsche Sprache Schwierige Sprache Starke Flexion Viele Sonderfälle viele Varianten eines Wortes
Verfahren [Inf12] Porter-Stemmer-Algorithmus N-Gramm Verfahren Lexikographische Verfahren Kombinationen aus mehreren Verfahren … können nicht verifiziert, sondern nur getestet werden
Porter-Stemmer 1980 von Dr. Martin Porter veröffentlicht 5 Schritte Algorithmus Entfernt Suffixe & Affixe im Wort Implementierung für mehrere Sprachen
Porter-Stemmer (Deutsch) [Lan12] Definition zweier Wortregionen R1 und R2 R1 ist die Region nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R2 ist die Region (in R1) nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R1 anpassen, sodass die Wortregion davor mind. 3 Zeichen enthält Markiere s-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n, r oder t steht Markiere st-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n oder t steht Wandle ß in ss um
Porter-Stemmer (Deutsch) [Lan12] Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. e, em, en, ern, er, es eine markierte s-Endung 1 Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. en, er, est eine markierte st-Endung 1, sofern mind. 3 Buchstaben davor stehen • 1Der Buchstabe vor der Endung muss nicht zwangsweise in R1 enthalten sein
Porter-Stemmer (Deutsch) [Lan12] Suche nach der längsten der folgenden Endungen end, ung Lösche aus R2 Wenn ig davor steht, siehe ig Regel ig, ik, isch Lösche aus R2, sofern kein e davor steht lich, heit Lösche aus R2 Wenn er oder en davor steht, lösche aus R1 keit Lösche aus R2 Wenn lich oder ig davor steht, lösche aus R2
Porter-Stemmer (Deutsch) [Lan12] Entferne Umlaut Akzente (ä ö ü a o u)
Snowball[Por12] Framework für Stemming-Algorithmen eigene Programmiersprache, konzipiert für Stemming Algorithmen Compiler für Übersetzung von Snowball Script (.sbl) nach Java und C
Nachteile [Ste12] Sprachabhängig Schwer anzupassen/verbessern Algorithmen nicht verifizierbar Fehleranfällig Alternativen Grundformreduktion Trunkierung(Wildcard Suche)
Quellen [Por12] Dr Martin Porter: Snowball Tartarus. Online im Internet: http://snowball.tartarus.org , Stand 26.12.2012 [Inf12] Infobiber, McKaot , EmausBot u.W.: Stemming. Online im Internet: http://de.wikipedia.org/wiki/ Stemming , Stand 26.12.2012 [Clau12] Prof. Michael Clausen, Dr. Frank Kurth: Grundlagen des Multimediaretrievals I. Online im Internet: http://www-mmdb.iai.unibonn.de/lehre/material MMRws0304/skriptMMRI.pdf , Stand 26.12.2012
Quellen [Lan12] Johannes Lang, Rossen Kowatschew: HS Information Retrieval: Stemming. Online im Internet: http://kontext.fraunhofer.de/haenelt/ kurs/Referate/Kowatschew_Lang/stemming.pdf, Stand 26.12.2012 [Ste12] Stein: Stammformreduktion. Online im Internet: http://www.uni-weimar.de/medien/webis/ teaching/lecturenotes/information-retrieval/ unit-de-stemming.pdf , Stand 09.01.2013