180 likes | 325 Views
Digitalisierung und Aufbereitung von Sprachdaten. Stefan Baumann 1 , Dagmar Jung 2 & Doris Mücke 1 I f L Phonetik 1 I f L Allgemeine Sprachwissenschaft 2 Universität zu Köln. CCeH Workshop. IT-bezogene Lehre an der Philosophischen Fakultät
E N D
Digitalisierung undAufbereitung von Sprachdaten Stefan Baumann1, Dagmar Jung2 & Doris Mücke1 IfL Phonetik1 IfL Allgemeine Sprachwissenschaft2 Universität zu Köln
CCeH Workshop • IT-bezogene Lehre an der Philosophischen Fakultät • Studierende des BA Fachs Linguistik und Phonetik lernen: Aufnahme von Sprachdaten (meist digital) Aufbereitung & Annotation von Sprachdaten im Labor im Feld Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
IT-bezogene Kurse • BA Linguistik & Phonetik • Laboratory Phonology (Projektseminar) • Akustische Phonetik (Praxisseminar) • Prosodische Analyse (Grundkurs) • Signalgestütze Transkription (Übung) • Einführung in die Allgemeine Sprachwissenschaft (Seminar) • Sprachdokumentation (Proseminar) • Diskursanalyse (Hauptseminar) Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
IT-bezogene Kurse • zusätzlich: • Statistik-Kurse in regelmäßigen Abständen (in ASW und Phonetik) • Programme: R und SPSS Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachaufnahmen Labor I • Akustik • Nutzung von digitalen Aufnahmemöglichkeiten • Wandlung in verschiedene Datei-Formate • u.a. wav, SSFF • Pre-processing • Schneiden und Ordnen von Akustik-Dateien • Optimierung für Frequenzanalysen • Abtastrate: Downsampling (44.1kHz, 20kHz) • Filtern, z.B. Noise-Reduction Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachverarbeitung Parametrisierung Resynthese als Analysetechnik sprachverarbeitende Software Cool Edit, Audacity, PRAAT, EMU Articulate Assistant, Custom Software 6 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Beispiel Formantanalyse b e n e nn e richtig fehlerhaft, F1 wird nicht gefunden Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachaufnahmen Labor II • Aufnahme von Artikulationsdaten Elektropalatographie Elektromagnetische Artikulographie Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Annotation EPG • hingeben • Labeln von Bewegungs-plateaus (Bsp. für partielle Assimilation) 1 2 3 4 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Annotation EMMA Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Sprachaufnahmen „im Feld“ Mikrophonierung (nach Aufnahmesituation, Monolog vs. Konversation, auch wireless) digitale Aufnahmeformate (Audio und Video) Aufnahme von „natürlichen Daten“ -> Unterschiede gesprochene vs. geschriebene Sprache wird durch Transkription und Annotation sichtbar gemacht Erstelllung von Annotationen und Korpus z.B. durch ELAN und Toolbox 11 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
ELAN 12 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Toolbox Datenbank Textanalyse durch Parsen Erstellung von Morphemlisten/ Wortlisten/Wörterbüchern Datenaustausch mit ELAN (Bezug zu Mediadateien bleibt dadurch erhalten) 13 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Toolbox 14 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Zwischen Labor- und Feldforschung • Annotation verschiedener Datentypen (auch Spontansprache) • mehrere linguistische Beschreibungsebenen • (Morpho-)Syntax: Wortstellung, Part-of-Speech, Definitheit, Satztyp, Fokusoperatoren… • Semantik/Pragmatik: Fokustyp, Informationsstatus (Referenz- u. lexikalische Ebene)… • Phonetik/Phonologie: Akzente und Grenztöne, Tonhöhenumfang, Dauern von Silben und Wörtern… Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Zwischen Labor- und Feldforschung • Annotationstool für Darstellung der verschiedenen Ebenen: EMU Speech Database System (http://emu.sourceforge.net/) • Beispiel Spontansprache: Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Zwischen Labor- und Feldforschung Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
Fächerübergreifende Zusammenarbeit • Neues DFG-Projekt von Phonetik (Grice) und Germanistik (Lohnstein); ab 2010 • Ein Ziel: Erweiterung der Fokus-DB um mehrebenen-annotierte Daten inklusive Tondateien und Bereitstellung zu Forschungszwecken • Demo-Version: www.fokus-db.de, Benutzer: „Besucher“, Passwort: „Demo“ Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke