280 likes | 443 Views
Eckhard Bick. Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum. Eckhard Bick, 2000. Korpus90 og Korpus2000. blandet tekst, ca. 28 mill. ord hver sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk).
E N D
Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk:Korpus90 og Korpus2000Arboretum Eckhard Bick, 2000
Korpus90 og Korpus2000 • blandet tekst, ca. 28 mill. ord hver • sætningsrandomiseret citatkorpus • kompileret af DSL (www.dsl.dk) • morfosyntaktisk opmærket af VISL (visl.sdu.dk)
Korpusopmærkning: DanPars • Præprocessering: Separation, polyleksika • Morfologisk analysemaskine og leksikon • Postprocessering: Valens- og semantisk potentiale • Morfologisk disambiguering (CG) • Syntaktisk mapping og disambiguering (CG) • Propriums-CG, Case role-CG • PSG-overbygning: Arboretum
Leksikokgrafisk arbejde fx leksemer der indgår i bestemte syntaktiske sekvenser:@SUBJ> (subjekt) @MV (main verb) @<ACC (objekt)”hest” ”æde” ”hø” opmærkning med semantiske prototyper:21 aflyse <occ> (arrangementer)19 aflyse <act-c> (tallelige handlinger og aktiviteter)4 aflyse <ac> (tallelige abstrakta)4 aflyse <act> (handlinger og aktiviteter)4 aflyse <sem-l> (musikalske værker m.m.)3 aflyse <event> (hændelser)3 aflyse <sit> (situationer)
Selektionsrestriktioner for objekter forflytte <Hprof>_2 (human professional) forfægte <pp>_3 (tankeprodukt) forfølge <ac>_8 <Hprof>_6 <H>_4 .... (aktiviteter og mennesker) forføre <H>_3 (people) forgylde <H>_4 <Hprof>_3 (mennesker) forhale <act-c>_3 <act>_3 (handlinger og aktiviteter) forhandle <ac>_17 <sem-r>_9 <conv>_8 .... (tællelige abstrakta, "readables", aftaler) forhaste <pp>_3 <sem>_3 (tankeprodukter) forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9 forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb) forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler) forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger) forkorte <per>_4 (perioder)
Selektionsrestriktioner for subjekter advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner) afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle) afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og almindelige mennesker) afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele frembringlelser, professionelle) affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper) affærdige <Hprof>_3 afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter) afgive <Hprof>_34 <HH>_24 <inst>_17 ... (professionelle, grupper og institutioner) afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)
Teksttypologi: Passivkonstruktioner • Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.? • 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiver • s-passiv eller blive-passiv • leksemspecifikke passivnormaler?
(a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket.Leksikaliseret S-passiv ("slås", "synes") • (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas • (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%.Høj Spas/akt, neutral Spas/Bpas • (d) Minimælk fås kun fra Arla. *Minimælk bliver fået.Lav Spas/akt, høj Spas/Bpas • (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet.Blive-passiv kun med formelt subjekt. • (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d. 10. oktober.(f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift.Være-passiv enten som s- eller som blive-passiv
Foranstillede adverbier i præpositionsstyrede infinitiver Rød = fokusadverbierblå = tidsadverbiergrøn = bøjede adverbier
Vp-indskudte adverbierog deres positionspecificitet Rød = attitude-adverbierblå = konjunktionelle adverbier
Direkte objekter 7,1 % i 1,1 millioner ord fra Korpus2000
Genus-fluktuation i dansk • Hypotese: Noget/meget + utrum substantiv:-> Projektion af +mass • meget/megen er mindre markeret (50/50) • noget/nogen er mere markeret (1 : 6 fordeling) (a1) Øllet var stærkt og mørkt. (a2) De drak en øl hver. (b) Det var noget godt mad, du lavede. (c) Vejen får ekstra meget trafik om morgenen.
Hypotese: konkret-abstrakt-gradient for meget og positivnoget (a1) Jeg har ikke noget glas. (--> … at drikke af) (a2) Jeg har ikke noget krus. (--> … at drikke af) (b1) ?Jeg har noget glas. (--> materialet) (b2) *Jeg har noget krus. (--> Jeg har et krus) (c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret (c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr. (c3) *Han har nogen bil.
Korpus90/2000:http://www.dsl.dk http://corp.hum.sdu.dk Arboretum: ~/arboretum.html ************** Morfosyntaktisk opmærkede CG-korpora tillader bl.a.: • Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m. • Grammatisk teksttypologi • Kvantitative undersøgelser af syntaktiske fænomener