1 / 21

EXMARaLDA - ein System zur Diskurstranskription auf dem Computer

EXMARaLDA - ein System zur Diskurstranskription auf dem Computer. Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg. Projekt „Mehrsprachige Datenbank“. Ziel: Bündeln der am SFB 538 vorhandenen Daten (zunächst:Transkriptionen gesprochener Sprache):

almira
Download Presentation

EXMARaLDA - ein System zur Diskurstranskription auf dem Computer

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. EXMARaLDA -ein System zurDiskurstranskriptionauf dem Computer Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg

  2. Projekt „Mehrsprachige Datenbank“ • Ziel: Bündeln der am SFB 538 vorhandenen Daten (zunächst:Transkriptionen gesprochener Sprache): • Vortragsdiskurse / Expertendiskurse (japanisch / deutsch) • Interviews (englisch / Luganda / deutsch) • gedolmetschte Diskurse (deutsch / englisch / portugiesisch / türkisch / japanisch / französisch) • „freie“ Diskurse (skandinavische Sprachen) • Spracherwerbsdaten (deutsch / französisch / portugiesisch / baskisch / italienisch / türkisch / spanisch)

  3. Projekt „Mehrsprachige Datenbank“ • Probleme: • „variety of tools and formats“ • Mischbetrieb (Windows / MAC OS 9.x / Linux) • veraltete Systeme (dBase, DOS-Programme) • stark unterschiedliche Zielsetzungen / theoretische Hintergründe (generative Grammatik, funktionale Pragmatik etc.)

  4. SyncWriter • Editor für interlinearen Text („Partitur rein, Partitur raus“) • binäres Dateiformat  kaum Export- / Importmöglichkeiten • „Hausgemachte“ Lösung für „Sonderzeichen“ (Schriftsatz HIAT-Times) • Nur unter MAC OS 9.x und früher

  5. HIAT-DOS • Partitur-Editor • Darstellungsorientierte Text-Dateien  Export- / Import schwierig • Festbreitenschriftsatz, keine „Sonderzeichen“ (ANSI) • Nur unter DOS

  6. Verbmobil • Einfache Textdateien •  „Sonderzeichen“ problematisch (ANSI) • keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B. Partitur)

  7. ACCESS / LAPSUS (dBase) • Äußerungsdatenbanken • unkomfortable Eingabe (in Datenbank-Masken) • keine „fortgeschrittenen“ Darstellungsmöglichkeiten (z.B. Partitur) • Erweiterung / Anpassung schwierig

  8. Datenbank „Mehrsprachigkeit“ ? SyncWriter HIAT-DOS Verbmobil ACCESS / dBase SQL- Datenbank

  9. Datenbank „Mehrsprachigkeit“ SyncWriter EXMARaLDA- Basis- Transkription Ausgabe: Partitur in HTML / RTF Eingabe: Partitur- Editor SQL- Datenbank HIAT-DOS Verbmobil ACCESS / dBase

  10. Datenbank „Mehrsprachigkeit“ SyncWriter EXMARaLDA- Listen- Transkription Ausgabe: HTML / RTF Eingabe: Text- Editor EXMARaLDA- Basis- Transkription SQL- Datenbank HIAT-DOS Verbmobil ACCESS / dBase

  11. Datenbank „Mehrsprachigkeit“ SyncWriter Zusätzliche Annotation EXMARaLDA - Segmentierte Transkription EXMARaLDA- Basis- Transkription SQL- Datenbank HIAT-DOS EXMARaLDA- Listen- Transkription Verbmobil ACCESS / dBase

  12. Anforderungen an EXMARaLDA • Mindestens: Ersetzen der vorhandenen Systeme, also: • Eingabemöglichkeiten: Partitur, Liste • Ausgabemöglichkeiten: Partitur, Liste (jeweils auf Drucker und Bildschirm) • Annotationen auf Wort-/Äußerungsebene (Übersetzung, morphologische Glossen, Phrasenstruktur, ...) • Integration von Audio-/Videodaten • Suche auf Annotationen • Sprach-/ Software-/ und Plattformunabhängigkeit, Erweiterbarkeit, deshalb: • UNICODE, XML, JAVA

  13. Anforderungen an EXMARaLDA Mindestanforderungen erlauben kaum theoretische Beschränkungen bzgl. des Modells.  „universelles“ Modell für Diskurstranskriptionen  Annotationsgraphen (Bird/Liberman) • zusätzliche Möglichkeiten durch Schnittstellen zu: • anderen Tools, die XML-Daten produzieren (z.B. Transcriber, ANVIL) • anderen Transkriptionssystemen (z.B. GAT, CHAT) • anderen „generischen“ Systemen (z.B. MATE, Talkbank)

  14. EXMARaLDA: bisher fertiggestellte Komponenten • Definition der XML-Kodierung (DTDs): • Basis-Transkription (zeitliche Strukturierung  Grundlage für Partitur-Ein-/ und Ausgabe) • Listen-Transkription (zeitliche Strukturierung + Strukturierung nach Sprecherbeiträgen  Grundlage für Listen-Ein-/ und Ausgabe) • Segmentierte Transkription (zeitliche + beliebige sprachliche Strukturierung  Grundlage für Annotation und zur Archivierung) • Basis-Transkription  Listen-Transkription  segmentierte Transkription

  15. EXMARaLDA: bisher fertiggestellte Komponenten • JAVA-Tools zur Bearbeitung von EXMARaLDA-Daten: • Konvertierung zwischen Basis-/ Listen- und segmentierter Transkription • automatische Segmentierung nach Turns, Äußerungen, Wörtern JAVA-Tools zur Ausgabe von EXMARaLDA-Daten: • Ausgabe als Partitur in HTML oder RTF ( mit Zeilenumbruch) • Ausgabe als Liste

  16. EXMARaLDA: bisher fertiggestellte Komponenten • JAVA-Tools zur Eingabe von EXMARaLDA-Daten: • Eingabe als Liste in einer Textdatei (Simple EXMARaLDA) • Import in eine Listen-Transkription Weiterbearbeitung mit EXMARaLDA-Tools • Bearbeitung, Ausgabe, Eingabe (Tools ohne GUI) • Basis-JAVA-API • JAVA-Kommandozeilentools

  17. EXMARaLDA: in Arbeit • JAVA-Tool zur Eingabe von EXMARaLDA-Daten: • Partitur-Editor

  18. EXMARaLDA: in Arbeit • GUI-Tool  Java-Swing API

  19. EXMARaLDA: Ausblick • Fertigstellung des Partitur-Editors bis Dezember 2001 • Importfilter für syncWriter- und HIAT-DOS-Daten • Exportfilter für CHAT-Daten • Annotationstool(s) • ...

  20. Ausgabe als Partitur in RTF EXMARaLDA: BASIC-TRANSCRIPTION Archivierung in Datenbank Annotation EXMARaLDA: SEGMENTED-TRANSCRIPTION Ausgabe als Liste in HTML Bearbeiten mit CLAN CHILDES EXMARaLDA: LIST-TRANSCRIPTION BEISPIEL: Transkription im PartiturEditor

  21. EXMARaLDA -ein System zurDiskurstranskriptionauf dem Computer Thomas Schmidt • SFB 538 „Mehrsprachigkeit“ • Universität Hamburg

More Related