210 likes | 347 Views
EXMARaLDA - ein System zur Diskurstranskription auf dem Computer. Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg. Projekt „Mehrsprachige Datenbank“. Ziel: Bündeln der am SFB 538 vorhandenen Daten (zunächst:Transkriptionen gesprochener Sprache):
E N D
EXMARaLDA -ein System zurDiskurstranskriptionauf dem Computer Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg
Projekt „Mehrsprachige Datenbank“ • Ziel: Bündeln der am SFB 538 vorhandenen Daten (zunächst:Transkriptionen gesprochener Sprache): • Vortragsdiskurse / Expertendiskurse (japanisch / deutsch) • Interviews (englisch / Luganda / deutsch) • gedolmetschte Diskurse (deutsch / englisch / portugiesisch / türkisch / japanisch / französisch) • „freie“ Diskurse (skandinavische Sprachen) • Spracherwerbsdaten (deutsch / französisch / portugiesisch / baskisch / italienisch / türkisch / spanisch)
Projekt „Mehrsprachige Datenbank“ • Probleme: • „variety of tools and formats“ • Mischbetrieb (Windows / MAC OS 9.x / Linux) • veraltete Systeme (dBase, DOS-Programme) • stark unterschiedliche Zielsetzungen / theoretische Hintergründe (generative Grammatik, funktionale Pragmatik etc.)
SyncWriter • Editor für interlinearen Text („Partitur rein, Partitur raus“) • binäres Dateiformat kaum Export- / Importmöglichkeiten • „Hausgemachte“ Lösung für „Sonderzeichen“ (Schriftsatz HIAT-Times) • Nur unter MAC OS 9.x und früher
HIAT-DOS • Partitur-Editor • Darstellungsorientierte Text-Dateien Export- / Import schwierig • Festbreitenschriftsatz, keine „Sonderzeichen“ (ANSI) • Nur unter DOS
Verbmobil • Einfache Textdateien • „Sonderzeichen“ problematisch (ANSI) • keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B. Partitur)
ACCESS / LAPSUS (dBase) • Äußerungsdatenbanken • unkomfortable Eingabe (in Datenbank-Masken) • keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B. Partitur) • Erweiterung / Anpassung schwierig
Datenbank „Mehrsprachigkeit“ ? SyncWriter HIAT-DOS Verbmobil ACCESS / dBase SQL- Datenbank
Datenbank „Mehrsprachigkeit“ SyncWriter EXMARaLDA- Basis- Transkription Ausgabe: Partitur in HTML / RTF Eingabe: Partitur- Editor SQL- Datenbank HIAT-DOS Verbmobil ACCESS / dBase
Datenbank „Mehrsprachigkeit“ SyncWriter EXMARaLDA- Listen- Transkription Ausgabe: HTML / RTF Eingabe: Text- Editor EXMARaLDA- Basis- Transkription SQL- Datenbank HIAT-DOS Verbmobil ACCESS / dBase
Datenbank „Mehrsprachigkeit“ SyncWriter Zusätzliche Annotation EXMARaLDA - Segmentierte Transkription EXMARaLDA- Basis- Transkription SQL- Datenbank HIAT-DOS EXMARaLDA- Listen- Transkription Verbmobil ACCESS / dBase
Anforderungen an EXMARaLDA • Mindestens: Ersetzen der vorhandenen Systeme, also: • Eingabemöglichkeiten: Partitur, Liste • Ausgabemöglichkeiten: Partitur, Liste (jeweils auf Drucker und Bildschirm) • Annotationen auf Wort-/Äußerungsebene (Übersetzung, morphologische Glossen, Phrasenstruktur, ...) • Integration von Audio-/Videodaten • Suche auf Annotationen • Sprach-/ Software-/ und Plattformunabhängigkeit, Erweiterbarkeit, deshalb: • UNICODE, XML, JAVA
Anforderungen an EXMARaLDA Mindestanforderungen erlauben kaum theoretische Beschränkungen bzgl. des Modells. „universelles“ Modell für Diskurstranskriptionen Annotationsgraphen (Bird/Liberman) • zusätzliche Möglichkeiten durch Schnittstellen zu: • anderen Tools, die XML-Daten produzieren (z.B. Transcriber, ANVIL) • anderen Transkriptionssystemen (z.B. GAT, CHAT) • anderen „generischen“ Systemen (z.B. MATE, Talkbank)
EXMARaLDA: bisher fertiggestellte Komponenten • Definition der XML-Kodierung (DTDs): • Basis-Transkription (zeitliche Strukturierung Grundlage für Partitur-Ein-/ und Ausgabe) • Listen-Transkription (zeitliche Strukturierung + Strukturierung nach Sprecherbeiträgen Grundlage für Listen-Ein-/ und Ausgabe) • Segmentierte Transkription (zeitliche + beliebige sprachliche Strukturierung Grundlage für Annotation und zur Archivierung) • Basis-Transkription Listen-Transkription segmentierte Transkription
EXMARaLDA: bisher fertiggestellte Komponenten • JAVA-Tools zur Bearbeitung von EXMARaLDA-Daten: • Konvertierung zwischen Basis-/ Listen- und segmentierter Transkription • automatische Segmentierung nach Turns, Äußerungen, Wörtern JAVA-Tools zur Ausgabe von EXMARaLDA-Daten: • Ausgabe als Partitur in HTML oder RTF ( mit Zeilenumbruch) • Ausgabe als Liste
EXMARaLDA: bisher fertiggestellte Komponenten • JAVA-Tools zur Eingabe von EXMARaLDA-Daten: • Eingabe als Liste in einer Textdatei (Simple EXMARaLDA) • Import in eine Listen-Transkription Weiterbearbeitung mit EXMARaLDA-Tools • Bearbeitung, Ausgabe, Eingabe (Tools ohne GUI) • Basis-JAVA-API • JAVA-Kommandozeilentools
EXMARaLDA: in Arbeit • JAVA-Tool zur Eingabe von EXMARaLDA-Daten: • Partitur-Editor
EXMARaLDA: in Arbeit • GUI-Tool Java-Swing API
EXMARaLDA: Ausblick • Fertigstellung des Partitur-Editors bis Dezember 2001 • Importfilter für syncWriter- und HIAT-DOS-Daten • Exportfilter für CHAT-Daten • Annotationstool(s) • ...
Ausgabe als Partitur in RTF EXMARaLDA: BASIC-TRANSCRIPTION Archivierung in Datenbank Annotation EXMARaLDA: SEGMENTED-TRANSCRIPTION Ausgabe als Liste in HTML Bearbeiten mit CLAN CHILDES EXMARaLDA: LIST-TRANSCRIPTION BEISPIEL: Transkription im PartiturEditor
EXMARaLDA -ein System zurDiskurstranskriptionauf dem Computer Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg