40 likes | 168 Views
Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut UNIVERSITÄT AUGSBURG. LeaP Korpus. erstellt 2001 bis 2003; Universität Bielefeld; Learning Prosody Projekt Lernerkorpus: L2 Englisch und L2 Deutsch (plus einige Muttersprachler)
E N D
Das LeaP Korpus und Pacx - eine Plattform für annotierte Korpora in XML Ulrike Gut UNIVERSITÄT AUGSBURG
LeaP Korpus • erstellt 2001 bis 2003; Universität Bielefeld; Learning Prosody Projekt • Lernerkorpus: L2 Englisch und L2 Deutsch (plus einige Muttersprachler) • Gesamtgröße: 12 h; 131 Sprecher mit 32 unterschiedlichen L1s; vier Sprechstile • vielfältige Annotationen und Metadaten (IMDI Format); Text-Ton-aligniert • Datenformat XML-basiert (TASX) http://www.philhist.uni-augsburg.de/lehrstuehle/anglistik/applied/Research/leap/
Annotationen im LeaP Korpus • 8 tiers • Intonationsphrasen und nicht-sprachliche Ereignisse • orthographische Transkription von Wörtern • phonemische Transkription in SAMPA von Silben • Segmente (Konsonanten und Vokale) • Intonation (ToBI), Tonumfang • Lemmata, POS • Reliabilität der manuellen Annotationen überprüft (Gut & Bayerl 2004)
Pacx – Platform for annotated corpora in XML • Integrierte Plattform zur Korpusannotation (in XML), -suche und -distribution • Eclipse, Vex, Versionskontrolle (Subversion) • Spezifikation von Annotationsschema • Annotation mit XML-Editor Vex • Build-Corpus-Skript: führt Anfragen und Tests durch, erzeugt Korpus und Webpage mit Links zu Rohdaten und Transkriptionen • Integration von ELAN geplant (Annotation von gesprochener Sprache) http://pacx.sourceforge.net/