360 likes | 542 Views
Označevanje korpusov PNG Slovenistika II. letnik 2006. 7.4.2006. Pregled predavanja. Ravni označevanja Označevalne tehnike Oznake korpusa FIDA. Označevanje. besedil o lahko analiz iramo na določeni jezikovni ravni rezultat analize zapišemo v korpus, t.j. korpus označimo
E N D
Označevanje korpusovPNG SlovenistikaII. letnik 2006 7.4.2006
Pregled predavanja • Ravni označevanja • Označevalne tehnike • Oznake korpusa FIDA
Označevanje • besedilo lahko analiziramo na določeni jezikovni ravni • rezultat analize zapišemo v korpus, t.j. korpus označimo • tak korpus je nato primeren za nadaljno, bolj poglobljeno obravnavo • ljudje lahko iščejo (tudi) po pripisanih oznakah • računalniki lahko oznake uporabijo za nadaljne procesiranje
Ravni označevanja • označujemo lahko praktično karkoli kar je koristno za neko aplikacijo • delitev po ravneh jezikoslovne obravnave: • oblikoslovje • leksika • skladnja • semantika
Oblikoslovno označevanje • vsaki besedi v besedilu pripišemo njene oblikoslovne lastnosti, npr. samostalnik moškega spola edinine, v orodniku • oblikoslovne lastnosti so odvisne od besedne oblike in njenega konteksta:Hotel[V] je popust pri plačilu računa za hotel[N].
Lematizacija in krnjenje • lema besede je njena osnovna oblika, npr. mize mizahodil hoditinočem ?čl. ? • lema nima jezikoslovnega pomena, pač pa je konvencionalna neoznačena oblika besede • kot pri oblikoslovnem označevanju, je lema določena šele skozi kontekst:hotela hotel ali hotetisedel sedeti ali sesti • krnenje ohrani samo osnovo besede:hotela, hotelskega, … hotelmize, miza, mizarstvo miz (mizarstv?) • krnenje najprej razvito za angleščino (kjer večinoma lema=krn) • krnenje je bolj uporabno za zajemanje in luščenje informacij (information retrieval and extraction)
Luščenje poimenovanih entitet Named Entity Extraction: identifikacija in kategorizacija fraz, ki označujejo “entitete” • lastna imena: ljudje, organizacije, geografska imena (mesta, države, reke,…) • številskih izrazi (22.320,34; 22,320.34; dvajset) • količine:procenti (%, procentov), valute (SIT, $), teža (kg, m2) • datumi in časi: 22 januarja, 45 n.š., 23:14, 11PM • naslovi: poštni, email, www • tudi imena zdravil, genov, ladij, bibliografske enote, …
Kje se uporabljajo • izredno pomembno za zajemanje in luščenje informacij (Information Retrieval and Extraction): kdo, kaj, kje, kdaj, koliko • tekmovanje MUC-7 (Message Understanding Conferences, 1997, ZDA)
Primer uporabe: sledenje po entitetah in ontologiji: http://www.ontotext.com/kim
Problemi pri identifikaciji • variacije: John Smith, Mr Smith, John • dvoumnost: • John Smith (podjetje ali oseba) • May (oseba ali mesec) • Washington (oseba ali kraj) • 1945 (datum ali čas) • dvoumnost z navadnimi besedami
Prevedba kazalk Anaphora resolution: določitev referenta kazalk, npr. The queen is not here yet, but she is expected to arrive soon. she: anafora; the queen: antecedent V slovenščini dodatni problemi zaradi izpuščanja kazalk:Pop zvezdnica Madonna je objavila datume svoje prihajajoče turneje “Confessions”. V Evropi bo svoj prvi koncert turneje imela v Cardiffu 30. julija, prav tako bo nastopila…
Skladenjsko označevanje • predavanje 19.5.206 • stavke (povedi) označujemo s skadenjskimi relacijami • se razmeroma malo uporablja v jezikovnih tehnologijah: preveč napak, preveč dvoumnosti, prepočasi • namesto tega se uporablja plitke metode, npr. “NP chunking” (samostalniški kosi) • kosi so tipično deli stavka, ki vsebujejo eno samo polnopomensko besedo, obkroženo s funkcijskimi besedicami, ki spadajo k njej in tvorijo nespremenljiv vzorec. (Abney, 1991)
Druge oznake • termini • pomensko označevanje (glass1, glass2, …) • večjezični korpusi: stavčna poravnava vzporednih korpusov, poravnava prevodnih ekvivalentov • govorjeni korpusi: poravnava transkripcije s signalom • …
Ravni označevanja • Označevalne tehnike • Oznake korpusa FIDA
Ročno označevanje • s pomočjo urejevalnika ekspert (jezikoslovec) označuje korpus • potrebna je natančna definicija “gramatike”, t.j. nabora dovoljenih kategorij oz. relacij • dobrodošlo je preverjanje: formalno, vsebinsko • problem posebej akuten, ko je več označevalcev: izdelava priročnika, vzporedno označevanje • za nekatera področja (semantično označevanje) je ujemanje med različnimi označevalci < 70%
Strojno označevanje • z ročno napisanimi pravili • s strojnim učenjem, na osnovi ročno označene učne množice • s strojim učenjem, na osnovi neoznačene učne množice
dejanski najdeni izpuščeni pravilni napačni Natančnost in pokritje [Simulacijski model][terorističnega delovanja] razvijamo skupaj s partnerjem [Guardiaris za naročnika][Oddelek za raziskave in simulacije] na [Ministrstvu za obrambo RS]. natačnost = pravilni/najdeni x 100% pokritje = pravilni/dejanski x 100% natančnost in pokritje sta obratno sorazmerna mera F = geometrična sredina natančnosti in pokritja
Ročno napisana pravila • programi, ki delajo s pomočjo ročno napisanih pravil (jezikoslovec/računalničar) • programi zahtevajo zelo formalna pravila, omejena glede na izbrano teorijo/formalizem/implementacijo • problemi: pokritje, krhkost, dvoumnost, hitrost
Vodeno učenje • (supervised learning) program se uči na osnovi ročno označenih podatkov • večina programov uporablja statistične metode (maksimizirajo verjetnost) • tudi metode t.i. strojnega učenja:program se uči pravila • prednosti pred statističnimi metodami: pravila so (do neke mere) razumljiva • slabosti: bolj zamudno učenje, mogoče tudi uporaba
Primer statističnega označevanja: oblikoslovno označevanje Program TnT (Trigrams and tags): išče Vmip3s--n najbolj Rgs verjetno Afpnsn zaporedje Ncnsn oblikoslovnih Afpfpg oznak Ncfpg glede Rgp na Spsa besede Ncfpa
Delovanje n-gramskih označevalnikov Dva vira znanja, naučena iz označenega korpusa: • leksikon: kaj so možne oblikoslovne oznake neke besede?besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18 • kontekst: katera oznaka je najbolj verjetna glede na sosednje oznake?Ncfsg 1375 Vcip3s--n 54 Vcps-sma 4 Afpmsnn 1 Vmps-sma 11 Z uporabo Viterbijevega algoritma izračuna najbolj verjetno zaporedje oznak
Primer strojnega učenja: lematizacija s CLOG • program dobi posebno učno množico za vsako oblikoslovno oznako (predpostavimo predhodno oblikoslovno označevanje) • učna množica je sestavljena iz parov besedna oblika/lema: Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([n,o,s,u],[n,o,s]).
Pravila CLOG • pravila so tipa X-pripona1 X-pripona2 • pravila so urejena od specifičnih k splošnim • Samostalniki ženskega spola v rodilniku: Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[e],[a]),!.
Učenje brez vodenja • strogo statistične metode(Clustering, Maximim Entropy, Minimum Description Length) • primer je identifikacija kolokacij (besednih zvez) • poišči vse besede, ki se bolj pogosto kot je običajno pojavljajo skupaj • statistične formule; problem so zelo redke (Šepetalec ubija) in zelo pogoste besede (je rekel) • iskanje kolokatorjev v orodju Wordsmith:poišči vse besede, ki se bolj pogosto kot pričakovano pojavljajo v bližini ključne besede
Ravni označevanja • Označevalne tehnike • Oznake korpusa FIDA
Oblikoslovne oznake • oznaka podaja oblikoskladenjsko funkcijo besede v besedilu • oznake najprej razvite za angleščino: • glavni problem je ločiti med besednimi vrstami (run[v] / run[N]) • revno oblikoslovje malo različnih oznak, 20—100
BNC BASIC TAGSET • AJ0Adjective (general or positive) (e.g. good, old, beautiful) • AJC Comparative adjective (e.g. better, older) • AJS Superlative adjective (e.g. best, oldest) • AT0 Article (e.g. the, a, an, no) • … • CJC Coordinating conjunction (e.g. and, or, but) • CJS Subordinating conjunction (e.g. although, when) • CJT The subordinating conjunction that • CRD Cardinal number (e.g. one, 3, fifty-five, 3609) • NN0 Common noun, neutral for number (e.g. aircraft, data) • NN1 Singular common noun (e.g. pencil, goose, time) • NN2 Plural common noun (e.g. pencils, geese, times) • NP0 Proper noun (e.g. London, Michael, Mars, IBM) • ORD Ordinal numeral (e.g. first, sixth, 77th, last) • …
Nabori oznak za oblikoslovno bogate jezike • besedne oblike vsebujejo mnogo več informacije: spol, število, sklon, živost, določnost • primer zaimkov: • osebni, svojilni, povratni… • pridevniški, samostalniški • 3 števila, 3 spoli, 6 sklonov • spol in število “svojine” … • > 1000 različnih oznak • pri razdvoumljanju veliko več problemov z oblikoslovnim podatki kot pa z besedno vrsto
Nabori oznak za slovenščino • nabor ZRC SAZU, http://bos.zrc-sazu.si/ • sledi slovenski slovnici • okrajšave čim bolj mnemonične • z njim ročno označen velik korpus (1M besed) • nabor oznak ni bil vnaprej določen • oznake razlikujejo nemotivirane kategorije (tipi lastnih imen) • označeni korpus ni dostopen za prenos • nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ • upošteva mednarodne standarde • oznake je možno mehanično razstavljati • z njim strojno označen velik korpus (FIDA, 100M besed) • ročno označeni korpus prosto dostopen (100k besed) • izpušča nekatere motivirane kategorije (povedkovnik, besedna vrsta okrajšave) • skop priročnik • npr. Pže1, E5 proti Afpfsn, Spsl
MULTEXT-East oblikoslovne specifikacije • dostopne na http://nl.ijs.si/ME/V3/msd/ • verzija 3, 2004-05-10 • sestavljene iz uvoda, skupnih tabel, in poglavij za posamezne jezike • originalno v LaTeX, izvedeni formati v HTML, PDF, XML
Osnovni namen specifikacij MULTEXT-East Določijo: • katere oblikoslovne oznake so dovoljene za posamezne jezike, • kaj pomenijo:Vmip3d--n = PoS:Verb, Type:main, VForm:indicative, Tense:present, Person:third, Number:dual, Gender:-, Voice:-, Negative:no • in še kaj..
Nabor slovenskih oznak • v ročno označenem korpusu MULTEXT-East je prisotnih 1023 različnih oznak • v oblikoslovnem leksikonu MULTEXT-East jih je prisotnih 2083 • oznake z angleško razlago dostopne v msd-sl.txt
Lokalizacija • Afcfda = Pkpzdt • Afcfda = Adjective qualificative comparative feminine dual accusative • Pkpzdt = Pridevnik kakovostni primernik ženski dvojina tožilnik
Oznake korpusa FIDA • oznake MULTEXT-East, prevedene v slovenščino se uporabljajo v korpusu FIDA • v FIDA za vsako besedo prisotne vse možne oblike za to besedno obliko • 2271 različnih oznak • tabela en-sl oznak s slovenskimi razlagami dostopna na msdFIDA-sl.txt