140 likes | 298 Views
Optimierung von Volltextinvertierung durch Stemming. Spree SoSe 2010. . Wer setzt solche Verfahren ein?. Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen:. Plural
E N D
Optimierung von Volltextinvertierung durch Stemming Spree SoSe 2010
Wer setzt solche Verfahren ein? Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen: Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. • Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. • Beispiel: city findet city, cities, city's, and cities' • Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. • Beispiel: Mit bonus finden Sie nicht bonuses • Beispiel: Mit child finden Sie nicht children • Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=business&sPage=gh_terms&sAnchor=general&fromHelp=true)
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Stemming - Wiederholung genau Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden.
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Probleme des Stemming genau BriefpapiereBriefpapi Buchen (Bäume) Buch Buches Buch Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Themen them Themas thema schlechtester schlechtest schlechter schlecht Absorbieren absorb Apsorption absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Übung: Porter Stemmer genau Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache • Aufgabe: • Sie erhalten einen Text und ein Indexierungsergebnis. Schauen Sie sich das Ergebnis an und beantworten Sie folgende Fragen: • Was hat das Programm gemacht? • Was vermuten Sie, wie funktioniert das? • Hätte ein Nutzer das Dokument bekommen, wenn er recherchiert hätte: • Informationswirtin • Kundschaft AND Industrie
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Porter Stemmer - Funktionsweise genau • Abtrennung von Endungen (keine Präfixe, Zirkumfixe, Infixe) • basiert auf statistischen Erkenntnissen über Wortendungen und ihre Funktion / kein wirkliches morphologisches Wissen hinterlegt • trunkiere alles, was länger als x Buchstaben ist, wenn .. • iteratives (schrittweises) Vorgehen in Form der Abarbeitung aufeinanderfolgender Regeln • basiert auf Erfahrungswissen
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Porter Stemmer – Elemente des Codes genau • C, V, (C=Konsonant; V=Vokal) • Zeichenfolgenlänge • - Abfolgen von VC werden gezählt, um die Zeichenfolgenlänge festzulegen • - Gezählt wird immer nur die VC Abfolge, C zu Beginn und V zum Ende zählt nicht: Oats =VC, also m=1 Tree = CV also m=0 • Zusatzbedingungen: - *S (Stamm endet mit S) - *V* (Stamm enthält Vokal) • Eine einfache Erklärung des Porter-Algorithmus liefert der Artikel Porter-Stemmer-Algorithmus der Wikipedia http://de.wikipedia.org/wiki/Porter-Stemmer-Algorithmus • Den Originaltext finden Sie im Lernmodul http://www.bui.haw-hamburg.de/pers/ulrike.spree/astep/porter.doc
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Porter Stemmer – Regeln genau • Einfache Regelstruktur für die Suffixbearbeitung • Identifikation von Endungen (ate, s, ies …) • Endungen werden abgehängt, wenn der übrigbleibender Stamm, bestimmte Bedingungen erfüllt • Abhängen des Suffix erfolgt nur ab festgelegter Wortlänge (VC-Folge) • Insgesamt 5 Bearbeitungsschritte • Prinzip des „longest match“
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Porter Stemmer – Beispielregeln genau • Step 1a • SSES -> SS caresses -> caress • IES -> I ponies -> poni • ties -> ti • SS -> SS caress -> caress • S -> cats -> cat • Step 1b • (m>0) EED -> E feed -> feed • agreed -> agree • (*v*) ED -> plastered -> plaster • bled -> bled • (*v*) ING -> motoring -> motor • sing -> sing • Wenn die erste oder zweite Regel zutrifft, wird folgendes getan: • AT -> ATE conflat(ed) -> conflate • BL -> BLE troubl(ed) -> trouble • IZ -> IZE siz(ed) -> size • (*d and not (*L or *S or *Z))
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Porter Stemmer – Beispielregeln genau • Step 2 • (m>0) ATIONAL -> ATE relational -> relate • (m>0) TIONAL -> TION conditional -> condition • rational -> rational • (m>0) ENCI -> ENCE valenci -> valence • ... Insgesamt 20 Fälle • Step 3 • (m>0) ICATE -> IC triplicate -> triplic • (m>0) ATIVE -> formative -> form • (m>0) ALIZE -> AL formalize -> formal • (m>0) ICAL -> IC electrical -> electric • Step 4 • (m>1) AL -> revival -> reviv • (m>1) ANCE -> allowance -> allow • (m>1) ENCE -> inference -> infer • The suffixes are now removed. All that remains is a little tidying up. • Step 5a • (m>1) E -> probate -> probat • Step 5b • (m > 1 and *d and *L) -> single letter • controll -> control • roll -> roll
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010 Porter Stemmer – Maßnahmen gegen overstemming genau Regel: (m>1) ATE Suffixe werden nicht entfernt, wenn der Stamm zu kurz ist. Maß ist m, also Abfolge VokalConsonant. Es gibt keine linguistische Grundlage für diese Beobachtung, sie beruht nur auf Beobachtung. RELATE RELATE DERIVATE DERIV m=1 m=2/m>1
Porter Algorithmus als Flussdiagramm
Porter Algorithmus : Beispiel für iteratives Vorgehen SSES -> SS IES -> SS -> SS S -> • International intern • Anwendung von Step 1 ? • Step 1 wird nicht angewandt, weil keine der Regeln zutrifft • Anwendung von Step 2 • Bedingung (m>0) ? • Ja, denn VCVC • Regel: (m>0) ational ate • international internate • Anwendung von Step 3? • Step 3 wird nicht angewandt, da keine der Regeln zutrifft • Anwendung von Step 4? • Regel: (m>1) ate • internate intern (m>0) ATIONAL -> ATE (m>0) TIONAL -> TION (m>1) ATE ->
Einschränkungen regebasierter Verfahren • Fehler werden in Kauf genommen • Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text • Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt • Anzahl der Regeln überschaubar ist • Ausnahmen begrenzt sind • Das System hat kein wirkliches morphologisches Verständnis • Prefixe werden nicht berücksichtigt