1 / 26

Token-Annotation im FO rschungs - und L ehr K orpus Gesprochenes Deutsch

Token-Annotation im FO rschungs - und L ehr K orpus Gesprochenes Deutsch. Thomas Schmidt, IDS Mannheim thomas.schmidt@ids-mannheim.de. FOLK. Forschungs- und Lehrkorpus gesprochenes Deutsch

akiva
Download Presentation

Token-Annotation im FO rschungs - und L ehr K orpus Gesprochenes Deutsch

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Token-Annotation im FOrschungs- und LehrKorpusGesprochenes Deutsch Thomas Schmidt, IDS Mannheim thomas.schmidt@ids-mannheim.de

  2. FOLK • Forschungs- und Lehrkorpus gesprochenes Deutsch • Großes, breit stratifiziertes, computergestützt verarbeitbares, öffentlich verfügbares Korpus deutscher Gespräche • Seit 2008 am IDS • Erstes offizielles Release: Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch (DGD2) • Anfang 2014: Ca. 100h Audio-Aufnahmen, ca. 1 Millionen transkribierte Wort-Tokens • Weiter im Aufbau

  3. Gliederung • (semi-)automatisierte Normalisierung literarischer Umschrift in FOLK • Literarische Umschrift • Orthographische Normalisierung • Automatisierung / Evaluation • Verbesserungsmöglichkeiten • (semi-)automatisiertes POS-Tagging von Transkriptionen

  4. Literarische Umschrift = „Repräsentation von Mündlichkeit, so wie in der (schönen) Literatur üblich“ • „Sei glöcklich, du gutes Kend“ [SesemiWeichbrodt, Buddenbrooks] • Zwirner/Bethge (1958): Deutsche Mundarten • Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen • Selting et. al. (1998): Gesprächsanalytisches Transkriptionssystem • „ModifiedOrthography“, „Eye dialect“, „Orthographeadaptée“ • „I wuz de on‘yonedathadmuch. So I stuck out formo‘ danfo‘ dollars, en I said […]“ [Jim, Adventures ofHuckleberry Finn] • „b'jour“, „chaispas“ [Convention ICOR, CLAPI Lyon]

  5. Literarische Umschrift

  6. Literarische Umschrift • Ellisionen • Verschleifungen • Assimilationen • dialektale Färbungen • generelle Kleinschreibung

  7. Literarische Umschrift • Warum nicht Standardorthographie? • relevante Charakteristika der Mündlichkeit • (hist.) visuelle Abgrenzung von geschriebenem Text • Warum nicht phonetische Umschrift? • Arbeitsökonomie • Zugänglichkeit / Lesbarkeit • Verlust morphologischer/lexikalischer Systematik

  8. Literarische Umschrift • „Bewusstes Abweichen von schriftsprachlichen Standards“ • Regelgeleitet? • „Von der Orthographie soll […] abgewichen werden, wo der gesprochene Laut durch einen anderen Buchstaben […] besser wiedergegeben wird“ [Zwirner/Bethge 1958] • standardsprachliche Realisierungen  Standardorthographie, • nicht-standardsprachliche Realisierungen  literarische Umschrift • „[…] abweichende Ausdrücke werden […] nachgebildet, wenn sie vereinzelt auftreten […], allgemein verbreitete Phänomene […] werden nicht notiert“ [Rehbein et al. 1993] • Beispiellisten bei HIAT, GAT, Verbmobil • (süddeutsch) [lustik]  lustig? lustick? lustik? • (norddeutsch) [stain]  ???

  9. Warum normalisieren? • Vorhersagbarkeit bei Suchen • nein, nee, na, ne, neeh, nehee, nö, näh, nää • bleibsch, bleibscht, gebliewe,gebliwwe • Anwendung von NLP-Methoden • Lemmatisierung • POS-Tagging • syntaktische Annotation etc.

  10. FOLK-Annotationsebenen 2h-10h Maskierung Korrekturen Transkription / Kontrolle 30h-80h 1h-3h Normalisierung • Effektivierung des Workflows: • Beschleunigung • Vereinfachung 2h-4h POS-Tagging

  11. Normalisierungsregeln • „Interpretationsarme Annäherung an Standardorthographie“ • Normalisierung auf Ebene von Lexikon und Morphosyntax, keine syntaktischen oder stilistischen Korrekturen • Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti)  redaktionell bevorzugte Varianten • Explizite Regelungen für • Interjektionen: Häsitationen, Rezeptionssignale, Frageanhängsel etc. • Unvollständige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrüche, fragmentierte Wörter • Umgangssprachliche Verkürzungen • … • Diskussion und Dokumentation von Einzelfallentscheidungen  Konsistenz

  12. Normalisierungsregeln • Zweifelsfälle • Rekonstruktion von Abbrüchen • Kontraktionen • hammers haben wir es • kannst  kannst Du? • durchs durch das • zum  zu dem? [ugs.]? / Frequenz?

  13. Evaluation • 22 manuell normalisierte Transkriptionen aus FOLK • 61.495 Wort-Tokens, 6.219 Wort-Types • Quote: Ø29.89% / max. 42.45% / min. 20.93% • Häufige Typen: • Klein-  Großschreibung: 12.99% • Ergänzung / Klassifizierung unvollständiger Formen: 6.49% • Häsitation (ähm äh): 1.46% • 18 Trainings- / 4 Evaluationsdaten

  14. Automatisierung • Lexikonbasiert • Transkribierte Form W mehr als n-mal zu Form W‘ normalisiert  Zuweisung von Form W‘ • Nur großgeschriebene Variante in DeReWo Großschreibung

  15. Automatisierung • höhere Präzision  inakzeptabler Recall • deutliche Erleichterung der manuellen Korrektur • mehr Lexikondaten  Erhöhung von Precision und Recall? • keine Annäherung an 100%

  16. Phänomenologie: Lexikon • Eindeutige Fälle • Mehrdeutige Fälle

  17. Phänomenologie: Lexikon • Regelmäßigkeiten

  18. Phänomenologie: Lexikon • Ähnlichkeiten (Phonetische Distanz) (Levenshtein-Distanz)

  19. Phänomenologie: Fehler

  20. Verbesserung der automatischen Normalisierung • Ermittlung von Kandidaten (Recall) • Abgleich mit bereits normalisierten Formen • Abgleich mit Wortliste (DeReWo) • Ermittlung von möglichen Normalisierungen • aus bereits normalisierten Formen • ähnliche Formen aus Wortliste • (Regeln: n-Ellision, e-Ellision)? • Entscheidung zwischen Alternativen (Precision) • einfache Häufigkeiten aus FOLK • einfache Häufigkeiten aus anderen Korpora? • (kombinatorische Häufigkeiten)?

  21. FOLK-Lexikon DeReWo etc. In Wortliste? Bereits normalisiert? nein ja Transkribierte Form keine Normalisierung nein ja Normalisierte Form(en) Häufigkeit in FOLK Ähnliche Form(en) Häufigkeit in DeReKo Kandidatenliste Auswahl n-gram-Häufigkeiten? Manuelle Korrektur (OrthoNormal) Normalisierte Form

  22. Effektivierung der manuellen Korrektur

  23. Test: POS-Tagging • TreeTagger / STTS / „Default“-Parameterdatei • 3 manuell korrigierte Transkripte aus Testdatensatz • Fehlerquoten:

  24. POS-Tagging: aktuelle Arbeiten • Erweiterung/Anpassung des STTS-Tagsets: • Interaktive Einheiten: Responsive, Interjektionen • Partikeln • Koordiniert mit STTS-Workshops / Arbeiten zu IBK • Erstellen eines Trainings- und Evaluationskorpus • Neu-Training des TreeTaggers / andere Tagger (?)  Westpfahl/Schmidt (2013): POS für(s) FOLK. In: JLCL.

  25. Zusammenfassung • Brauchbare Automatisierung durch lexikonbasierte Verfahren • Annäherung an 100% vorerst nicht realistisch • Weitere Verbesserungen möglich durch • größere/andere Lexika • Ermitteln ähnlicher Formen als Kandidaten • verfeinerte Methoden zur Auswahl des besten Kandidaten • Effektivierung manueller Korrektur

  26. Ausblick • „Anwenderbedarf“ • Sprachtechnologie/Ressourcen zur Verbesserung der Normalisierung? • Ähnliche Wörter (phonetische, orthographische Distanz) • N-gramm-Methoden • „Support“ • Web-Service „Normalisierung“? • OrthoNormal für IBK-Daten (Dortmunder Chat-Korpus)? • WebLichtfür Transkriptionen?

More Related