220 likes | 313 Views
Textkorpora in angewandter Slawistik. Danko.Sipka@asu.edu http://www.public.asu.edu/~dsipka. Fünf Beispiele. Einleitung.
E N D
Textkorpora in angewandter Slawistik Danko.Sipka@asu.edu http://www.public.asu.edu/~dsipka • Fünf Beispiele
Einleitung • NeuroTran(R), ein MT System zwischen Englisch und mehreren anderen (hauptsächlich slawischen) Sprachen, das in der Firma Translation Experts Ltd., aus London, GB entwickelt wurde. Mehr über diese Firma findet man unter: http://www.tranexp.com . • 2. Rapid Deployment Morphology Lemmatisator der serbokroatischen Morphologie von New Mexico State University Computing Research Laboratory, Las Cruces, USA. Mehr über diese Institution ist unter: http://www.crl.nmsu.edu zu erfahren. • 3. Serbokroatisch-Englisches Wörterbuch der Umgangssprache (Slang und Kolloquialismen), an dem ich für die Firma Multilingual Research and Management aus Washington, DC, USA arbeite. Mehr über diese Firma findet man unter: http://www.erols.com/hdqt • 4. Serbokroatisch-Polnische kontrastive Untersuchungen an der Adam Mickiewicz Universität in Posen, Polen. Die Informationen zur diesen Projekten sind unter: http://main.amu.edu.pl/~sipkadan/ erhältlich. • 5. Slavisch-Englische Text Taggers, erhältlich unter http://www.asusilc.net/lctli.
Die Hauptkonzepte • Die Forderung der Minimalität, die verlangt, daß Informationen aus Textkorpora mit der möglichst kleinsten Anstrengung, gewonnen werden, • b. Die Forderung der Wiederverwendbarkeit, die verlangt, daß ein und dasselbe Material für viele Anwendungen geeignet ist.
NeuroTran <Hauptwort><POS tag><Gebrauchsanweisungen><Frequenzangaben><Kollokationsangaben> < Äquivalent 1>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben> < Äquivalent 2>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben > ... <Äquivalent 2><POS Tag><Gebrauchsanweisungen > <Frequenzangaben>< Kollokationsangaben >
NeuroTran • Kanonische Liste für die Quellsprache, • b. Gebrauchsanweisungen für die Quell- und Zielsprache, • c. Frequenzangaben für die Quell- und Zielsprache, • d. Lexikalische Valenz für die Zielsprache, • e. Grammatische Valenz für die Zielsprache, • f. Wort-Reihenfolge für die Zielsprache
NeuroTran Jestem w pracy. ->*I am in work. w L;[...]/in A;[...]/at A;[...] UNI GRM PREDICATE * PREPOSITION * NOUN => COLLOCATION(13->2) work [to, at] *I am in work -> I am at work. ENGPOL GRM ADJECTIVE NOUN => COLLOCATION(1 2|2 1). descriptive grammar -> *opisowa gramatyka -> gramatyka opisowa boring grammar -> nudna gramatyka -> nudna gramatyka
RDM „The model is motivated by engineering concerns: the considerations of economy and efficiency led to the use of non-traditional definitions of morphemes. The model has been implemented in the RDM system in the framework of the Corelli project at CRL. It was initially done on the material of Russian and then successfully applied for Serbo-Croatian”.
RDM [1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G2), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G2), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G2), ] [1483, 1486, 'vođe', 'vođ', NOUN(N;N1;C7;G1), ] [1483, 1486, 'vođe', 'vođ', NOUN(N;N2;C4;G1), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G1), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G1), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G1), ] // the leaders [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C7;G1), ] [1487, 1487, ' ', ' ', SPACE(), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G1), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N1;C2;G2), ] // of the opposition [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C1;G2), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G2), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C7;G2), ] [1498, 1498, ' ', ' ', SPACE(), ] [1499, 1507, 'koalicije', 'koalicija', NOUN(N;N1;C2;G2), ] // coalition [1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C1;G2), ] [1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C4;G2), ]
Inxight sentence = 46-167 BOB Prop JOHNSON Prop , Punct-Comma trenér Nn-Sg-Case amerických Adj hokejistů Nn-Pl-Gen koučoval V-PaPart své Pron-Refl svěřence Nn-Sg-Case na Prep Kanadském Adj poháru Nn-Sg-Case z Prep nemocnice Nn-Sg-Gen ; Punct naši Pron-Poss porážejí V-Ind SSSR Prop 5:2 Num-Card ! Punct-Sent
Serbokroatisch-Englisches Wörterbuch der Umgangssprache • als eine der Quellen für das Hauptverzeichnis der serbokroatischen Einträge, • b. als eine der Quellen für Gebrauchsanweisungen, • c. als eines der Mittel des Mikrostrukturbaus des Wörterbuchs.
Serbokroatisch-Englisches Wörterbuch der Umgangssprache 1 maznuti ‘klauen’; 2 maznuti ‘anfangen mit einer Freundin zu gehen’; 3 maznuti ‘Rauschgiftwirkung fühlen’
Serbokroatisch-Englisches Wörterbuch der Umgangssprache a. Wenn man anfängt, mit einer Freundin zu gehen, es ist wie sie zu klauen, b. Wenn man die Wirkung von Rauschgift fühlt, ist es wie von Rauschgift geklaut zu sein. maznuti | 1 ‘klauen’; /\ a. ‘anfangen zu gehen mit jemandem’ b. ‘Rauschgiftwirkung fühlen’
Taggers Taggers: http://www.asusilc.net/cgi-bin/newtepajgu.pl Examples http://www.asusilc.net/exbcs.htmOffline http://www.asusilc.net/expol.htmOffline http://www.asusilc.net/exbcs.htmOffline
Zusammenfassung • Alle Informationen soll man erstmals aus Textkorpora zu gewinnen versuchen, • b. Es ist sehr wichtig robuste Werkzeuge dafür zu entwickeln, • c. Die Korpusangaben sollten ständig mit Informationen aus anderen Quellen konfrontiert werden.