240 likes | 457 Views
Označevanje korpusov. Korpusi in baze podatkov 2007/2008. Označevanje. besedil o analiz iramo na določeni jezikovni ravni rezultat analize zapi š emo v korpus, t.j. korpus označimo tak korpus je nato primeren za nadaljno, bolj poglobljeno obravnavo
E N D
Označevanje korpusov Korpusi in baze podatkov 2007/2008
Označevanje • besedilo analiziramo na določeni jezikovni ravni • rezultat analize zapišemo v korpus, t.j. korpus označimo • tak korpus je nato primeren za nadaljno, bolj poglobljeno obravnavo • ljudje lahko iščejo (tudi) po pripisanih oznakah • računalniki lahko oznake uporabijo za nadaljne procesiranje
Ravni označevanja • označujemo lahko praktično karkoli, kar je koristno za neko aplikacijo • delitev po ravneh jezikoslovne obravnave: • oblikoslovje • leksika • skladnja • semantika • primeri: • oblikoslovno označevanje • lematizacija • označevanje lastnih imen • prevedba kazalk • skladenjsko označevanje
Oblikoslovno označevanje • vsaki besedi v besedilu pripišemo njene oblikoslovne lastnosti, npr. samostalnik moškega spola ednine, v orodniku • oblikoslovne lastnosti so odvisne od besedne oblike in njenega konteksta:Hotel[V] je popust pri plačilu računa za hotel[N].
Lematizacija in krnjenje • lema besede je njena osnovna oblika, npr. mize mizahodil hoditinočem ?čl. ? • lema nima jezikoslovnega pomena, pač pa je konvencionalna neoznačena oblika besede • kot pri oblikoslovnem označevanju, je lema določena šele skozi kontekst:hotela hotel ali hotetisedel sedeti ali sesti • krnenje ohrani samo osnovo besede:hotela, hotelskega, … hotelmize, miza, mizarstvo miz (mizarstv?) • krnenje najprej razvito za angleščino (kjer večinoma lema=krn) • krnenje je bolj uporabno za zajemanje in luščenje informacij (information retrieval and extraction)
Prevedba kazalk Anaphora resolution: določitev referenta kazalk, npr. The queen is not here yet, but she is expected to arrive soon. she: anafora; the queen: antecedent V slovenščini dodatni problemi zaradi izpuščanja kazalk:Pop zvezdnica Madonna je objavila datume svoje prihajajoče turneje “Confessions”. V Evropi bo svoj prvi koncert turneje imela v Cardiffu 30. julija, prav tako bo nastopila…
Skladenjsko označevanje • predavanje 19.5.206 • stavke (povedi) označujemo s skadenjskimi relacijami • se razmeroma malo uporablja v jezikovnih tehnologijah: preveč napak, preveč dvoumnosti, prepočasi • namesto tega se uporablja plitke metode, npr. “NP chunking” (samostalniški kosi) • kosi so tipično deli stavka, ki vsebujejo eno samo polnopomensko besedo, obkroženo s funkcijskimi besedicami, ki spadajo k njej in tvorijo nespremenljiv vzorec. (Abney, 1991)
Druge oznake • termini • pomensko označevanje (glass1, glass2, …) • večjezični korpusi: stavčna poravnava vzporednih korpusov, poravnava prevodnih ekvivalentov • govorjeni korpusi: poravnava transkripcije s signalom • …
Ravni označevanja • Označevalne tehnike • Oznake korpusa FIDA
Ročno označevanje • s pomočjo urejevalnika ekspert (jezikoslovec) označuje korpus • potrebna je natančna definicija “gramatike”, t.j. nabora dovoljenih kategorij oz. relacij • dobrodošlo je preverjanje: formalno, vsebinsko • problem posebej akuten, ko je več označevalcev: izdelava priročnika, vzporedno označevanje • za nekatera področja (semantično označevanje) je ujemanje med različnimi označevalci < 70%
Strojno označevanje • z ročno napisanimi pravili • s strojnim učenjem, na osnovi ročno označene učne množice • s strojim učenjem, na osnovi neoznačene učne množice (pogosta kombinacija strojnega in ročnega označevanja, v več korakih)
dejanski najdeni izpuščeni pravilni napačni Natančnost in pokritje [Simulacijski model][terorističnega delovanja] razvijamo skupaj s partnerjem [Guardiaris za naročnika][Oddelek za raziskave in simulacije] na [Ministrstvu za obrambo RS]. natačnost = pravilni/najdeni x 100% pokritje = pravilni/dejanski x 100% natančnost in pokritje sta obratno sorazmerna mera F = geometrična sredina natančnosti in pokritja
Ročno napisana pravila • programi, ki delajo s pomočjo ročno napisanih pravil (jezikoslovec/računalničar) • programi zahtevajo zelo formalna pravila, omejena glede na izbrano teorijo/formalizem/implementacijo • problemi: pokritje, krhkost, dvoumnost, hitrost
Vodeno učenje • (supervised learning) program se uči na osnovi ročno označenih podatkov • večina programov uporablja statistične metode (maksimizirajo verjetnost) • tudi metode t.i. strojnega učenja:program se uči pravila • prednosti pred statističnimi metodami: pravila so (do neke mere) razumljiva • slabosti: bolj zamudno učenje, mogoče tudi uporaba • primeri: • oblikoslovno označevanje • lematizacija CLOG • lematizacija RDR
Primer strojnega učenja: lematizacija s CLOG • program dobi učno množico za vsako oblikoslovno oznakoposebej (predpostavimo predhodno oblikoslovno označevanje) • če je napačna oblikoslovna oznaka, je (mogoče) napačna tudi lema • edina informacija, ki jo ima program o besedi, poleg njene oblikoslovne oznake je njena oblika (končnica) • učna množica je sestavljena iz parov besedna oblika/lema: Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([n,o,s,u],[n,o,s]).
Lematizator RDR • Ripple Down Rules: drugačen pristop k učenju odločitvenih seznamov • pravilo RDR:if -V then 0to0 because of [BRESKEV, POSTAVITEV]except if -HTEV then 0toA because of [ZAHTEV] • ta lematizator ne upošteva oblikoslovnih oznak, pač pa se odloča samo na osnovi končnice: • bolje ker je potrebno za lematizacijo manj znanja, s čimer tudi odpade vir napak • slabše ker je znanje o oblikoslovni kategoriji besedne oblike nujno za dobro lematizacijo:zagledala / zagledati, pedala / pedalo, FIDA+ *edala&~#2s*&~#2g* = 0022490.0000004“Skratka , eden od mnogih mojih intervjujev v stilu srečnasemkajbisesprenevedala.”
Učenje brez vodenja • strogo statistične metode(Clustering, Maximim Entropy, Minimum Description Length) • primer je identifikacija kolokacij (besednih zvez) • poišči vse besede, ki se bolj pogosto kot je običajno pojavljajo skupaj • statistične formule; problem so zelo redke (Šepetalec ubija) in zelo pogoste besede (je rekel) • iskanje kolokatorjev v orodju Wordsmith:poišči vse besede, ki se bolj pogosto kot pričakovano pojavljajo v bližini ključne besede
Oblikoslovne oznake • oznaka podaja oblikoskladenjsko funkcijo besede v besedilu • oznake najprej razvite za angleščino: • glavni problem je ločiti med besednimi vrstami (run[v] / run[N]) • revno oblikoslovje malo različnih oznak, 20—100
BNC BASIC TAGSET • AJ0Adjective (general or positive) (e.g. good, old, beautiful) • AJC Comparative adjective (e.g. better, older) • AJS Superlative adjective (e.g. best, oldest) • AT0 Article (e.g. the, a, an, no) • … • CJC Coordinating conjunction (e.g. and, or, but) • CJS Subordinating conjunction (e.g. although, when) • CJT The subordinating conjunction that • CRD Cardinal number (e.g. one, 3, fifty-five, 3609) • NN0 Common noun, neutral for number (e.g. aircraft, data) • NN1 Singular common noun (e.g. pencil, goose, time) • NN2 Plural common noun (e.g. pencils, geese, times) • NP0 Proper noun (e.g. London, Michael, Mars, IBM) • ORD Ordinal numeral (e.g. first, sixth, 77th, last) • …
Nabori oznak za oblikoslovno bogate jezike • besedne oblike vsebujejo mnogo več informacije: spol, število, sklon, živost, določnost • primer zaimkov: • osebni, svojilni, povratni… • pridevniški, samostalniški • 3 števila, 3 spoli, 6 sklonov • spol in število “svojine” … • > 1000 različnih oznak • pri razdvoumljanju veliko več problemov z oblikoslovnimi podatki kot pa z besedno vrsto
Nabori oznak za slovenščino • nabor ZRC SAZU, http://bos.zrc-sazu.si/ • sledi slovenski slovnici • okrajšave čim bolj mnemonične • z njim ročno označen velik korpus (1M besed) • nabor oznak ni bil vnaprej določen • oznake razlikujejo nemotivirane kategorije (tipi lastnih imen) • označeni korpus ni dostopen za prenos • nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ • upošteva mednarodne standarde • oznake je možno mehanično razstavljati • z njim strojno označen velik korpus (FIDA, 100M besed) • ročno označeni korpus prosto dostopen (100k besed) • izpušča nekatere motivirane kategorije (povedkovnik, besedna vrsta okrajšave) • skop priročnik • npr. Pže1, E5 proti Afpfsn, Spsl
Nabor slovenskih oznak • v ročno označenem korpusu MULTEXT-East je prisotnih 1023 različnih oznak • v oblikoslovnem leksikonu MULTEXT-East jih je prisotnih 2083 • oznake z angleško razlago dostopne v msd-sl.txt
Lokalizacija • Afcfda = Pkpzdt • Afcfda = Adjective qualificative comparative feminine dual accusative • Pkpzdt = Pridevnik kakovostni primernik ženski dvojina tožilnik
Oznake korpusa FIDA • oznake MULTEXT-East, prevedene v slovenščino se uporabljajo v korpusu FIDA • v FIDA za vsako besedo prisotne vse možne oblike za to besedno obliko • 2271 različnih oznak • tabela en-sl oznak s slovenskimi razlagami dostopna na msdFIDA-sl.txt • tabela z razlagami je dostopna tudi na straneh FIDA+