270 likes | 409 Views
Token-Annotation im FO rschungs - und L ehr K orpus Gesprochenes Deutsch. Thomas Schmidt, IDS Mannheim thomas.schmidt@ids-mannheim.de. FOLK. Forschungs- und Lehrkorpus gesprochenes Deutsch
E N D
Token-Annotation im FOrschungs- und LehrKorpusGesprochenes Deutsch Thomas Schmidt, IDS Mannheim thomas.schmidt@ids-mannheim.de
FOLK • Forschungs- und Lehrkorpus gesprochenes Deutsch • Großes, breit stratifiziertes, computergestützt verarbeitbares, öffentlich verfügbares Korpus deutscher Gespräche • Seit 2008 am IDS • Erstes offizielles Release: Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch (DGD2) • Anfang 2014: Ca. 100h Audio-Aufnahmen, ca. 1 Millionen transkribierte Wort-Tokens • Weiter im Aufbau
Gliederung • (semi-)automatisierte Normalisierung literarischer Umschrift in FOLK • Literarische Umschrift • Orthographische Normalisierung • Automatisierung / Evaluation • Verbesserungsmöglichkeiten • (semi-)automatisiertes POS-Tagging von Transkriptionen
Literarische Umschrift = „Repräsentation von Mündlichkeit, so wie in der (schönen) Literatur üblich“ • „Sei glöcklich, du gutes Kend“ [SesemiWeichbrodt, Buddenbrooks] • Zwirner/Bethge (1958): Deutsche Mundarten • Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen • Selting et. al. (1998): Gesprächsanalytisches Transkriptionssystem • „ModifiedOrthography“, „Eye dialect“, „Orthographeadaptée“ • „I wuz de on‘yonedathadmuch. So I stuck out formo‘ danfo‘ dollars, en I said […]“ [Jim, Adventures ofHuckleberry Finn] • „b'jour“, „chaispas“ [Convention ICOR, CLAPI Lyon]
Literarische Umschrift • Ellisionen • Verschleifungen • Assimilationen • dialektale Färbungen • generelle Kleinschreibung
Literarische Umschrift • Warum nicht Standardorthographie? • relevante Charakteristika der Mündlichkeit • (hist.) visuelle Abgrenzung von geschriebenem Text • Warum nicht phonetische Umschrift? • Arbeitsökonomie • Zugänglichkeit / Lesbarkeit • Verlust morphologischer/lexikalischer Systematik
Literarische Umschrift • „Bewusstes Abweichen von schriftsprachlichen Standards“ • Regelgeleitet? • „Von der Orthographie soll […] abgewichen werden, wo der gesprochene Laut durch einen anderen Buchstaben […] besser wiedergegeben wird“ [Zwirner/Bethge 1958] • standardsprachliche Realisierungen Standardorthographie, • nicht-standardsprachliche Realisierungen literarische Umschrift • „[…] abweichende Ausdrücke werden […] nachgebildet, wenn sie vereinzelt auftreten […], allgemein verbreitete Phänomene […] werden nicht notiert“ [Rehbein et al. 1993] • Beispiellisten bei HIAT, GAT, Verbmobil • (süddeutsch) [lustik] lustig? lustick? lustik? • (norddeutsch) [stain] ???
Warum normalisieren? • Vorhersagbarkeit bei Suchen • nein, nee, na, ne, neeh, nehee, nö, näh, nää • bleibsch, bleibscht, gebliewe,gebliwwe • Anwendung von NLP-Methoden • Lemmatisierung • POS-Tagging • syntaktische Annotation etc.
FOLK-Annotationsebenen 2h-10h Maskierung Korrekturen Transkription / Kontrolle 30h-80h 1h-3h Normalisierung • Effektivierung des Workflows: • Beschleunigung • Vereinfachung 2h-4h POS-Tagging
Normalisierungsregeln • „Interpretationsarme Annäherung an Standardorthographie“ • Normalisierung auf Ebene von Lexikon und Morphosyntax, keine syntaktischen oder stilistischen Korrekturen • Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti) redaktionell bevorzugte Varianten • Explizite Regelungen für • Interjektionen: Häsitationen, Rezeptionssignale, Frageanhängsel etc. • Unvollständige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrüche, fragmentierte Wörter • Umgangssprachliche Verkürzungen • … • Diskussion und Dokumentation von Einzelfallentscheidungen Konsistenz
Normalisierungsregeln • Zweifelsfälle • Rekonstruktion von Abbrüchen • Kontraktionen • hammers haben wir es • kannst kannst Du? • durchs durch das • zum zu dem? [ugs.]? / Frequenz?
Evaluation • 22 manuell normalisierte Transkriptionen aus FOLK • 61.495 Wort-Tokens, 6.219 Wort-Types • Quote: Ø29.89% / max. 42.45% / min. 20.93% • Häufige Typen: • Klein- Großschreibung: 12.99% • Ergänzung / Klassifizierung unvollständiger Formen: 6.49% • Häsitation (ähm äh): 1.46% • 18 Trainings- / 4 Evaluationsdaten
Automatisierung • Lexikonbasiert • Transkribierte Form W mehr als n-mal zu Form W‘ normalisiert Zuweisung von Form W‘ • Nur großgeschriebene Variante in DeReWo Großschreibung
Automatisierung • höhere Präzision inakzeptabler Recall • deutliche Erleichterung der manuellen Korrektur • mehr Lexikondaten Erhöhung von Precision und Recall? • keine Annäherung an 100%
Phänomenologie: Lexikon • Eindeutige Fälle • Mehrdeutige Fälle
Phänomenologie: Lexikon • Regelmäßigkeiten
Phänomenologie: Lexikon • Ähnlichkeiten (Phonetische Distanz) (Levenshtein-Distanz)
Verbesserung der automatischen Normalisierung • Ermittlung von Kandidaten (Recall) • Abgleich mit bereits normalisierten Formen • Abgleich mit Wortliste (DeReWo) • Ermittlung von möglichen Normalisierungen • aus bereits normalisierten Formen • ähnliche Formen aus Wortliste • (Regeln: n-Ellision, e-Ellision)? • Entscheidung zwischen Alternativen (Precision) • einfache Häufigkeiten aus FOLK • einfache Häufigkeiten aus anderen Korpora? • (kombinatorische Häufigkeiten)?
FOLK-Lexikon DeReWo etc. In Wortliste? Bereits normalisiert? nein ja Transkribierte Form keine Normalisierung nein ja Normalisierte Form(en) Häufigkeit in FOLK Ähnliche Form(en) Häufigkeit in DeReKo Kandidatenliste Auswahl n-gram-Häufigkeiten? Manuelle Korrektur (OrthoNormal) Normalisierte Form
Test: POS-Tagging • TreeTagger / STTS / „Default“-Parameterdatei • 3 manuell korrigierte Transkripte aus Testdatensatz • Fehlerquoten:
POS-Tagging: aktuelle Arbeiten • Erweiterung/Anpassung des STTS-Tagsets: • Interaktive Einheiten: Responsive, Interjektionen • Partikeln • Koordiniert mit STTS-Workshops / Arbeiten zu IBK • Erstellen eines Trainings- und Evaluationskorpus • Neu-Training des TreeTaggers / andere Tagger (?) Westpfahl/Schmidt (2013): POS für(s) FOLK. In: JLCL.
Zusammenfassung • Brauchbare Automatisierung durch lexikonbasierte Verfahren • Annäherung an 100% vorerst nicht realistisch • Weitere Verbesserungen möglich durch • größere/andere Lexika • Ermitteln ähnlicher Formen als Kandidaten • verfeinerte Methoden zur Auswahl des besten Kandidaten • Effektivierung manueller Korrektur
Ausblick • „Anwenderbedarf“ • Sprachtechnologie/Ressourcen zur Verbesserung der Normalisierung? • Ähnliche Wörter (phonetische, orthographische Distanz) • N-gramm-Methoden • „Support“ • Web-Service „Normalisierung“? • OrthoNormal für IBK-Daten (Dortmunder Chat-Korpus)? • WebLichtfür Transkriptionen?