250 likes | 431 Views
Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten. Danke. Annette Herkenrath Imme Kuchenbrandt Bernd Meyer Galia Datcheva Annette Schnieder Tülay Sel çuk. Gliederung. Projektantrag und Projektziele
E N D
Thomas Schmidt / Kai Wörner (Projekt Zb): Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Danke Annette Herkenrath Imme Kuchenbrandt Bernd Meyer Galia Datcheva Annette Schnieder Tülay Selçuk Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Gliederung • Projektantrag und Projektziele • Bericht über die Projektarbeit • Daten am SFB • Softwareentwicklung in Projekt Zb • „Rest der Welt“ • Offene Fragen / Ausblick Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projektanträge • Juli 2000: Projektskizze • Juli 2002: kurzer „Antrag“ im SFB-Antrag • Juli 2003: Antrag im Rahmen der Qualitätsoffensive der UHH Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projektziele • Überführung/Umstellung EXMARaLDA • Weiterentwicklung und Anpassung vorhandener Ein- und Ausgabewerkzeuge • „Datenbank“: Verwaltung, Suche, Auswertung von Korpora • Kooperation / Austausch mit anderen Projekten Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Daten am SFB 538 (K2, E5, E3, K5, K1) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projekt K2 • Vollständige Überführung „Aufklärungsgespräche“ DEMO • Überführung restlicher Daten im Gange • Synchronisierung Audio / Transkription im Gange DEMO • Überarbeitetes HIAT-Handbuch (veröffentlicht!) • Keyboard für HIAT / Türkisch / Portugiesisch • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projekt E5 • Vollständige Überführung „Maulwurfkorpus“ (+ Audio-Digitalisierung) • Überführung von ENDFAS und SKOBI im Gange • Vollständige Überführung HcTT-Daten ( CoMa) • SKOBI: 489 Kommunikationen / 197 Sprecher • ENDFAS: 265 Kommunikationen / 205 Sprecher • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projekt E3 • Überführung PAIDUS-Daten begonnen • Manuelle Nachbearbeitung: PAIDUS-Editor • Digitalisieren der Aufnahmen • Überführung der bilingualen Daten ab August • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projekt E3 • Automatische Berechnung der Silbenstruktur • Ausgabe in Spaltennotation („Transkriptbögen“) • Keyboard für Unicode-IPA (nach SIL IPA-Schriftsätzen) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Projekt K5 • Überführung von HIAT-DOS-Daten abgeschlossen • Erfassung neuer Daten mit Praat und EXMARaLDA Partitur-Editor • Projekt K1 • Überführung von syncWriter-Daten begonnen • Erfassung neuer Daten mit EXMARaLDA Partitur-Editor Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Softwareentwicklung in Z2 • Partitur-Editor • Stylesheets (Demo) • Segmentierung • Kommunikation mit Praat (Demo) • CoMa (Demo) • SQUIRREL • Workflow Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Weiterentwicklung Partitur-Editor: Stylesheets • Parametrisierung automatisierbarer Aufgaben • Ausgabe: Meta-Daten, Spaltennotation, Zeilennotation, Multimediale Formate (SMIL) • Konvertierung (Excel?) • Anlegen von Spuren (HIAT, DIDA) • Formatieren von Spuren (HIAT, DIDA) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Weiterentwicklung Partitur-Editor: Segmentierung • Segmentieren sprachlicher Einheiten aus implizitiem Markup („Tokenising“) • Voraussetzung für fortgeschrittene Analyse • Parametrisierbarer Algorithmus (Finite State Transducers) • Für HIAT, DIDA, GAT, CHAT Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Weiterentwicklung Partitur-Editor: Kommunikation mit Praat • Praat Partitur-Editor: Synchronisieren von digitalen Aufnahmen mit der Transkription • Partitur-Editor Praat: • Rückgriff auf die Aufnahme während des Transkribierens • Phonetische Analysen DEMO Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Nächste Schritte für CoMa • Zuordnung von Transkriptionen und Aufnahmen (digitale Daten) zu den Kommunikationen • Import von Kopfdaten aus EXMARaLDA-Transkriptionen • XPath-basierte Suche • Übergabe von Teilkorpora an Partitur-Editor und SQUIRREL DEMO Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Search and QUery InstRument foR ExmaraLda • Operiert auf CoMa-Teilkorpora • Suche nach: Strings, Regulären Ausdrücken, XPath-Ausdrücken • Suchergebnisse: KWIC-Liste Transkription Aufnahme Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Transkribieren imPartitur-Editor EXMARaLDAImportfilter+ manuelle Nachbearbeitung Workflow Neue Daten(Aufnahmen) Alte Daten(HIAT-Dos, syncWriter, …) Daten EXMARaLDATranskription Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
METADATEN Workflow Kopfdaten via CoMaImportfilter Eingabe d.Metadaten mit CoMa EXMARaLDATranskription Ausgabe(Partiturnotation, Spaltennotation, …) Segmentierung CoMa-Corpus SegmentierteTranskription Export(Chat, GAT, HIAT-Äußerungslisten) Ausgabe(Partitur, Spalten, Wort/Äußerungslisten, …) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
METADATEN Workflow SegmentierteTranskription CoMa-Corpus Suche über Metadaten CoMa-Teilkorpus(aus Suche/Selektion) Ausgabe(Partitur, Spalten, Wort/Äußerungslisten, …) SQUIRREL (Suche nach sprachl.Phänomenen) Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
X-Waves ESF syncWriter SHOEBOX TASX- Annotator ELAN Verbmobil CHILDES REST DER WELT Animal Communication TableTrans MATE Classroom Discourse PRAAT DIDA Partitur- Editor CLAN syncWriter HIAT-DOS dBASE Verbmobil Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Andere Projekte • ELAN (MPI Nijmegen), TASX (Uni Bielefeld), Praat (Uni Amsterdam) • Strukturell ähnliche Datenmodelle („Single timeline, multiple tiers“) • Import- / Exportfunktionalität / Kommunikation Partitur-Editor Praat • Gemeinsamkeiten / Erweiterungen der Datenmodelle • Texttechnologische Grundlage • IDS Mannheim (DIDA) • Seit November 2003: Einsatz von EXMARaLDA • CHILDES / Talkbank • Import in EXMARaLDA: automatisch für Einzelkorpora • Export aus EXMARaLDA: Segmentierungsalgorithmus • „Collaborative Commentary“ (Panel LREC 2004) • Text Encoding Initiative • TEI P5: „Time-Based Data Models and the TEI“ Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Einsatz von EXMARaLDA Agder University (Norwegen) ETH Zürich IDS Mannheim FU Berlin GK “Bildungsgangforschung” (Uni Hamburg) HU Berlin National University of Colombia Rice University SFB 632 (Potsdam) Studien CD Linguistik Uni Barcelona Uni Basel Uni Bayreuth Uni Bielefeld Uni Bologna Uni Bonn Uni Chemnitz Uni Dortmund (Uta Quasthoff) Uni Halle Uni Hamburg Uni Heidelberg Uni Karlsruhe Uni Kassel Uni Köln Uni Leipzig Uni Mannheim (Rosemarie Tracy) Uni München Uni Münster Uni Regensburg Uni Saarbrücken Uni Wien University of Southampton Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Offene Fragen 1 • „Mehrsprachige Datenbank“? • cf. „RelationaleDatenbank“? • Zentrale Verwaltung / Abfrage von Daten? • Client/Server-Architektur? • Relationale Datenstrukturen? cf. „CHILDES-Datenbank“? • Öffentlich zugängliches Datenarchiv („Multilingual Language Data Exchange System“)? • „Computergestützte Erfassungs- und • Analysemethoden multilingualer Daten“ Computergestützte Erfassungs- und Analysemethoden multilingualer Daten
Offene Fragen 2 • Werkzeuge • Weiterentwicklung vorhandener Werkzeuge • Annotationswerkzeuge (flache / hierarchische Annotation) • Daten • Neue Projekte • Texttechnologische Grundlagen • Verschiedene zeitbasierte Datenmodelle (EXMARaLDA, TASX, EAF, AG): Harmonisierung und Weiterentwicklung • Methodische Grundlagen • Gesprächsanalyse / Spracherwerbsforschung und computergestützte Methoden • Infrastrukturen • dauerhafte Archivierung von Daten / Pflege von Software Computergestützte Erfassungs- und Analysemethoden multilingualer Daten