500 likes | 760 Views
Korpuslingvistik. Maria Holmqvist 23 februari 2011. Vad är en korpus ?. Från corpus ( latin ): kropp “text som är föremål för språkvetenskapligt studium ” ( Svensk Ordbok )
E N D
Korpuslingvistik Maria Holmqvist 23 februari 2011
Vadär en korpus? Fråncorpus (latin): kropp “text somärföremålförspråkvetenskapligtstudium”(SvenskOrdbok) “A body of texts, utterances, or other specimens considered more or less representative of language and usually stored electronically...”(The Oxford Companion to the English Language) Korpuslingvistikärspråkliga studier avkorpusdata.
Rationalism vs. Empirism Lingvistiska studier Rationalism språkets uppbyggnad, grammatisk/icke-grammatiskt lingvistisk kompetens introspektion som metod vad som är teoretiskt möjligt Empirism Språkanvändning Hur används språket i text och tal? I vilka genrer? Av vilka författare/talare? …
Rationalism vs. Empirism Competence Performance “time flies like an arrow” “öh, va- vaddå ... va, varför sa han... närdå?”
Kritik mot den tidigakorpuslingvistiken • Tidsödande • Osystematiskt • Inkonsekvent
Pendeln svänger ... • Kritik mot introspektion som metod: • icke observerbart (och därför inte verifierbart) • artificiellt (“lingvistmeningar”) • icke kvantitativt, dvs. ingen hänsyn tas till “hur vanligt” och “i vilken genre” vissa konstruktioner används. • Datorutveckling och tillgång till maskinläsbar text.
Typer av textkorpusar • Balanserade • Genre-specifika • En- ochflerspråkiga • Andraspråkskorpusar (för studier avspråkinlärning) • Historiska (diakroniska) korpusar • Översättningskorpusarochjämförbarakorpusar • “Ren” text ochlingvistisktuppmärkt text.
Korpusexempel LOB-korpusen (70-tal) SUC-korpusen (90-tal) <p n=1549> <s n=1550> <w lem='kulturlager' msd='NCNPN@IS' n=1551>Kulturlager</w> <w lem='kalla' msd='V@IPSS' n=1552>kallas</w> <w lem='som' msd='CCS' n=1553>som</w> <w lem='bekant' msd='AQPNSNIS' n=1554>bekant</w> <w lem='även' msd='RG0S' n=1555>även</w> ...</s></p>
Google Ngramviewer • http://ngrams.googlelabs.com/ • Sökerefterordochfraseriinskannadeböckeri Google Books projektet • N-gram • Sekvensav N ord • ”Weneedbetterchildcare” • 1-gram (unigram) we, need, better, child, care • 2-gram (bigram) we need need better better child child care • 3-gram (trigram) we need better need better child better child care
Några sätt att undersöka sin korpus Frekvens (jämförelse av olika texttyper, t.ex. de 50 mest frekventa orden) Fraseologi (konkordanser, jämföra användning av ord som effective och efficient i dess kontexter Kollokationer (ord som förekommer tillsammans mer än slumpen?): shed-light, shed-tears, shed-blood...
Två angreppssätt • Kvantitativ analys • Räkna • Beräkna sannolikheter att X… • Rangordna • Identifiera ”oväntade” mönster • Testa om något är signifikant eller inte • Bygga statistiska modeller för översättning • Kvalitatitiv • Analysera och skapa definitioner • Tolka data, t.ex. genom att studera konkordansresultat • …
Frekvens (från British National Corpus) the Det 61847 of Prep 29391 and Conj 26817 a Det 21626 in Prep 18214 to Inf 16284 it Pron 10875 is Verb 9982 to Prep 9343 was Verb 9236 I Pron 8875 for Prep 8412 that Conj 7308 you Pron 6954 hePron 6810 be Verb 6644 with Prep 6575 on Prep 6475 by Prep 5096 at Prep 4790 have Verb 4735 are Verb 4707 not Neg 4626 this DetP 4623 's Gen 4599 butConj 4577 had Verb 4452 theyPron 4332 his Det 4285 from Prep 4134 shePron 3801 that DetP 3792 whichDetP 3719 or Conj 3707 wePron 3578 's Verb 3490 an Det 3430 ~n't Neg 3328 were Verb 3227 as Conj 3006 do Verb 2802 been Verb 2686 their Det 2608 has Verb 2593 wouldVMod 2551 there Ex 2532 whatDetP 2493 willVMod 2470 all DetP 2436 ifConj 2369 canVMod 2354 her Det 2183 said Verb 2087 who Pron 2055 oneNum 1962 so Adv 1893 up Adv 1795 as Prep 1774
Vanligaste engelska substantiven time 1833 year 1639 people 1256 way 1108 man 1003 day 940 thing 776 child 710 Mr 673 government 670 work 653 life 645 woman 631 system 619 case 613 part 612 group 607 number 606 world 600 house 598 area 585 company 579 problem 565 service 549 place 534 hand 532 party 529 school 529 other 1336 good 1276 new 1154 old 648 great 635 high 574 small 518 different 484 large 471 local 445 social 422 important 392 long 392 young 379 national 376 british 357 right 354 early 353 possible 342 big 338 little 306 political 306 able 304 late 302
Vanligaste svenska 570041 och 544542 i 458872 att 385642 det 333312 som 327301 en 308952 på 287120 är 236020 för 224991 av 221132 med 199223 den 196340 till 183952 inte 174667 har 173637 de 155548 han 153232 om 139766 ett 129868 jag 117897 var 115783 men 096119 sig 086090 så 083678 vi 074908 hon 074219 från 073616 man 071168 kan 060355 när 054483 hade 047906 nu 045902 skulle 045875 år 045073 säger 044277 där 043318 också 042797 eller 041712 sin 041260 under 040116 efter 039798 ut 039606 ska 039099 vid 038444 mot 037696 då 036649 här 035579 bara 035345 mycket 035345 upp 035209 över 034783 vara 034647 alla 034532 kommer 033634 vad 033476 än 033420 andra 033026 finns 031849 får 031348 in 031298 sedan 031112 du 029571 få 029228 ha 029137 hur
Zipf’s lag • Frekvensen av ett visst ord är omvänt proportionell mot dess ranking. • Ordfrekvensen i en korpus • Ett fåtal ord har mycket höga frekvenser • Ett större antal ord förekommer ganska ofta • Majoriteten av alla ord förekommer mycket sällan • Lingvisten George Kingsley Zipf (1902-1950) upptäcktesambandetförordfrekvenseriengelskaspråket • On a large corpus of English text, the 135 most frequently occurring words accounted for half of the text
Zipf’s lag • Många naturliga fenomen följer Zipf’s lag • Ordfrekvenser • Antalet invånare i städer • Utlånade böcker • Inkomster • “80/20” regeln • 80% avallatillgångarärkoncentrerade till 20% avbefolkningen
Olika typer av frekvens • Absolut frekvens = antal gånger ett visst tecken/ord förekommer. • Relativ frekvens = antal gånger ett visst tecken/ord förekommer med hänsyn taget till storlek på korpusen.
Jämföra frekvenser • Frekvensskillnader kan återspegla skillnader i olika språkvarieteter, t.ex. vad gäller • genre • kön • social tillhörighet • historiskförändring • … Kräver test föratt se omskillnadenärsignifikant.
Signifikanstest • Hypotes: användningen av hjälpverben ska och skallhar ändrats mellan sextio- och nittiotalet i svenska nyhetsmedier. • Hypotestest: skaffafrekvensdatafrånSpråkbankenochtestaom den observeradeskillnadenärsignifikant. • Signifikanstest: chi-square test 2 = (Oij – Eij)2 / Eij i,j
Signifikanstest Observerade värden/frekvenser (Oij) (Data från Språkbanken)
Signifikanstest 2 = (336-1830)2/1830 + (2006-940)2/940 + (18141-16647)2/16647 + (7495-8561)2/8561 > 1000 (dvs, väldigt högt Detta värde jämförs med ett värde i en 2-tabell. Mindre än en procents risk att detta inte är signifikant.
Identifiera oväntade ”händelser” • Huvudidé Om tvåhändelseräroberoende, såärsannolikhetenatt de samförekommer given avproduktenavderassannolikheter: p(A&B) = p(A) x p(B) Med en korpusanvänder vi formelnovanochrelativafrekvenserochtestarföroberoende.
Exempel 1 (Church & Hanks, 1989*) • Leta efter händelser (dvs. ord) som samförekommer signifikant oftare med strong och powerfuli en tidningstextkorpus. • Ord som samförekommer med strong(i signifikansordning): support, enough, safety, sales, opposition, showing, sense, defense, gains, criticism, … • Ord som samförekommer med powerful: computers, computer, symbol, machines, Germany, nation, chip, force, friends, neighbor, … *K. Church and P. Hanks: Word asociation norms, mutual information and lexicography. Proceedings of the 27th Annual Meeting of the ACL, Vancouver, Canada, 1989.
Example 2 (T. Holm: Översättningskorpusar och ordlänkningsprogram som resurs för tvåspråkigt ordboksarbete, LIU-KOGVET-D-0055-SE 2001) Lexikon: ancientI: a forn, forntida; [ur-] gammal Översättaren:
Korpusverktyg • konkordansverktyg (sökning och resultat presenterade i kontext) • frekvensverktyg (data om frekvenser för ord, fraser, meningar, osv.) • verktyg för frasextrahering • menings- och ordlänkning (s.k. alignment) • märkningsverktyg (ordklassmärkning, grundformer och morfologisk information) • m.m.
DAVE (NLPLAB) Meningslänkning
NågraexempelpåautomatisktframtagnaordparsomsaknadesiSverigesstörstaengelsk-svenskaordbokNågraexempelpåautomatisktframtagnaordparsomsaknadesiSverigesstörstaengelsk-svenskaordbok • ... • clever - listig • desk - disk • evidently - av allt att döma • many - åtskilliga • occasionally - ibland • performance - uppvisning • probably - antagligen • supply - förse • terrible - gräslig • hence - sålunda • ...
apelsinen/apelsinet • 16500 (apelsinen) • 26400 (en apelsin) • 990 (apelsinet) • 4270 (ett apelsin)
Översättningsminnen (ettslagstvåspråkigkorpus) • Hjälperöversättaregenomattkommaihåghur en mening/styckeöversattesförragången • användsvidöversättningavmanualer • tar framäven “nästanlika” förslag • kanförsämrasomförmångaliknandeöversatta segment läggs in • bliroftamycketspecifika: SAAB harsittöversättningsminne, Ericsson harettannat.
Olika språks ord täcker begrepp olika • semantiska fält mellan olika språk överlappar • semantiska speglingar fås automatiskt paw animal paw etape patte animal leg journey leg bird foot leg foot human leg chair leg pied jambe
Studier av språkbruk och dialekter • olika gruppers användning av språket • korpusar över talat språk kan analyseras uppdelad enligt olika kriteria: • i olika dialektområden • vad talaren tillhör för social klass • i vilket sammanhang samtalet finns • formellt/informellt • om bara kvinnor/män deltar • om barn är närvarande
Hur språk förändras över tiden • analys av korpusar med texter hämtade från samma språk men olika tidsepoker • ger underlag för sociolingvistiska studier av hur konventioner för t.ex. samtal ändras
Hur översättare arbetar • studier av vilka principer mänskliga översättare arbetar efter • kan ge bättre förståelse för hur två språks grammatik hänger ihop
Lite om Fodina och korpuslingvistik • Fodina Language Technology AB • Startade 2004 • Dokumentbaserad språkteknologi • 8 anställda • 5 kogvetare • Hjälper företag, organisationer och myndigheter att få en effektivare hantering av skrivande, översättning och språklig kvalitetskontroll.
Typiska saker som Fodina gör • Termextraktion ur befintlig dokumentation • Manualer • Patent • Flerspråkig dokumentation • Hur översätts termerna? • Är översättningen konsekvent? • Kvalitetskontrollera • Termdatabaser • Originaltexter • Översättningar • Används konsekvent terminologi för olika begrepp • Bygga upp processer för företag kring dokumentation och översättning
PRV/EPO:s maskinöversättningssystem • Regelbaserat MT-system • Uppgift: konstruera EN-SE och SE-EN termbank med termextraktion • Indata: 91.000 parallella dokument uppdelade på 630 subklasser • Språklig och ämnesmässig validering • Termer med frekvens 5 eller högre • Utdata: 181 000 termpar (strukturerade i en hierarkisk termdatas och i två riktningar)
Termextraktion • Normaliseringavtexten • Meningslänkning • Grammatiskanalys • Statistiskanalys • Termextraktion (ordlänkning) • Export till SQL (term)databas
Ordlänkning • Röstning (moduler och resurser röstar på ”kandidater”) • Hanterar alla ord (termer och icke-termer, enkla ord flerordskonstruktioner)
Termfiltrering • Ordklassberoende (inga prepositioner, artiklar, konjunktioner…) • Allmänspråksfilter
Sammanfattning • Korpusar är samlingar av texter • Om möjligt balanserade och representativa • Maskinläsbara • Ibland annoterade, men inte alltid • Innehållet i korpusar är empiriska forskningsobjekt för • Språkforskare • Språkteknologer • Kan studeras kvantitativt och kvalitativt • Korpusverktyg