Označevanje korpusov PNG Slovenistika II. letnik 2006

Označevanje korpusovPNG SlovenistikaII. letnik 2006 7.4.2006

Pregled predavanja • Ravni označevanja • Označevalne tehnike • Oznake korpusa FIDA

Označevanje • besedilo analiziramo na določeni jezikovni ravni • rezultat analize zapišemo v korpus, t.j. korpus označimo • tak korpus je nato primeren za nadaljno, bolj poglobljeno obravnavo • ljudje lahko iščejo (tudi) po pripisanih oznakah • računalniki lahko oznake uporabijo za nadaljne procesiranje

Ravni označevanja • označujemo lahko praktično karkoli kar je koristno za neko aplikacijo • delitev po ravneh jezikoslovne obravnave: • oblikoslovje • leksika • skladnja • semantika • primeri: • oblikoslovno označevanje • lematizacija • luščenje poimenovanih entitet • prevedba kazalk • skladenjsko označevanje

Oblikoslovno označevanje • vsaki besedi v besedilu pripišemo njene oblikoslovne lastnosti, npr. samostalnik moškega spola ednine, v orodniku • oblikoslovne lastnosti so odvisne od besedne oblike in njenega konteksta:Hotel[V] je popust pri plačilu računa za hotel[N].

Lematizacija in krnjenje • lema besede je njena osnovna oblika, npr. mize  mizahodil  hoditinočem  ?čl.  ? • lema nima jezikoslovnega pomena, pač pa je konvencionalna neoznačena oblika besede • kot pri oblikoslovnem označevanju, je lema določena šele skozi kontekst:hotela  hotel ali hotetisedel  sedeti ali sesti • krnenje ohrani samo osnovo besede:hotela, hotelskega, …  hotelmize, miza, mizarstvo  miz (mizarstv?) • krnenje najprej razvito za angleščino (kjer večinoma lema=krn) • krnenje je bolj uporabno za zajemanje in luščenje informacij (information retrieval and extraction)

Luščenje poimenovanih entitet Named Entity Extraction (NER): identifikacija in kategorizacija fraz, ki označujejo “entitete” • lastna imena: ljudje, organizacije, geografska imena (mesta, države, reke,…) • številski izrazi (22.320,34; 22,320.34; dvajset) • količine:procenti (%, procentov), valute (SIT, $), teža (kg, m2) • datumi in časi: 22 januarja, 45 n.š., 23:14, 11PM • naslovi: poštni, email, www • tudi imena zdravil, genov, ladij, bibliografske enote, …

Kje se NER uporablja • izredno pomembno za zajemanje in luščenje informacij (Information Retrieval and Extraction): kdo, kaj, kje, kdaj, koliko • tekmovanje MUC-7 (Message Understanding Conferences, 1997, ZDA)

Primer uporabe: sledenje po entitetah in ontologiji: http://www.ontotext.com/kim

Problemi v NER • variacije: John Smith, Mr Smith, John • dvoumnost: • John Smith (podjetje ali oseba) • May (oseba ali mesec) • Washington (oseba ali kraj) • 1945 (datum ali čas) • dvoumnost z navadnimi besedami

Prevedba kazalk Anaphora resolution: določitev referenta kazalk, npr. The queen is not here yet, but she is expected to arrive soon. she: anafora; the queen: antecedent V slovenščini dodatni problemi zaradi izpuščanja kazalk:Pop zvezdnica Madonna je objavila datume svoje prihajajoče turneje “Confessions”. V Evropi bo svoj prvi koncert turneje imela v Cardiffu 30. julija, prav tako bo nastopila…

Skladenjsko označevanje • predavanje 19.5.206 • stavke (povedi) označujemo s skadenjskimi relacijami • se razmeroma malo uporablja v jezikovnih tehnologijah: preveč napak, preveč dvoumnosti, prepočasi • namesto tega se uporablja plitke metode, npr. “NP chunking” (samostalniški kosi) • kosi so tipično deli stavka, ki vsebujejo eno samo polnopomensko besedo, obkroženo s funkcijskimi besedicami, ki spadajo k njej in tvorijo nespremenljiv vzorec. (Abney, 1991)

Druge oznake • termini • pomensko označevanje (glass1, glass2, …) • večjezični korpusi: stavčna poravnava vzporednih korpusov, poravnava prevodnih ekvivalentov • govorjeni korpusi: poravnava transkripcije s signalom • …

Ravni označevanja • Označevalne tehnike • Oznake korpusa FIDA

Ročno označevanje • s pomočjo urejevalnika ekspert (jezikoslovec) označuje korpus • potrebna je natančna definicija “gramatike”, t.j. nabora dovoljenih kategorij oz. relacij • dobrodošlo je preverjanje: formalno, vsebinsko • problem posebej akuten, ko je več označevalcev: izdelava priročnika, vzporedno označevanje • za nekatera področja (semantično označevanje) je ujemanje med različnimi označevalci < 70%

Strojno označevanje • z ročno napisanimi pravili • s strojnim učenjem, na osnovi ročno označene učne množice • s strojim učenjem, na osnovi neoznačene učne množice (pogosta kombinacija strojnega in ročnega označevanja, v več korakih)

dejanski najdeni izpuščeni pravilni napačni Natančnost in pokritje [Simulacijski model][terorističnega delovanja] razvijamo skupaj s partnerjem [Guardiaris za naročnika][Oddelek za raziskave in simulacije] na [Ministrstvu za obrambo RS]. natačnost = pravilni/najdeni x 100% pokritje = pravilni/dejanski x 100% natančnost in pokritje sta obratno sorazmerna mera F = geometrična sredina natančnosti in pokritja

Ročno napisana pravila • programi, ki delajo s pomočjo ročno napisanih pravil (jezikoslovec/računalničar) • programi zahtevajo zelo formalna pravila, omejena glede na izbrano teorijo/formalizem/implementacijo • problemi: pokritje, krhkost, dvoumnost, hitrost

Vodeno učenje • (supervised learning) program se uči na osnovi ročno označenih podatkov • večina programov uporablja statistične metode (maksimizirajo verjetnost) • tudi metode t.i. strojnega učenja:program se uči pravila • prednosti pred statističnimi metodami: pravila so (do neke mere) razumljiva • slabosti: bolj zamudno učenje, mogoče tudi uporaba • primeri: • oblikoslovno označevanje • lematizacija CLOG • lematizacija RDR

Primer statističnega označevanja: oblikoslovno označevanje Program TnT (Trigrams and tags): išče Vmip3s--n najbolj Rgs verjetno Afpnsn zaporedje Ncnsn oblikoslovnih Afpfpg oznak Ncfpg glede Rgp na Spsa besede Ncfpa

Delovanje n-gramskih označevalnikov Dva vira znanja, naučena iz označenega korpusa: • leksikon: kaj so možne oblikoslovne oznake neke besede?besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18 • kontekst: katera od možnih oznak besede je najbolj verjetna glede na sosednje oznake? • seznam trojk oblikoslovnih oznak s frekvencami:Ncfsg 1375 Vcip3s--n 54 Vcps-sma 4 Afpmsnn 1 Vmps-sma 11 Z uporabo Viterbijevega algoritma izračuna najbolj verjetno zaporedje oznak Upošteva se samo lokalni kontekst!

Primer razdvoumljanja beseda1 beseda2 beseda3 0.03 0.03 0.91 0.45 0.56 0.04 0.14 0.8 0.32 0.77 0.43 0.1 0.01 0.55 0.71 sam sam imen x 0.2 0.4 0.02 0.7 0.1 0.88 0.1 0.5 0.1 Leksikon začetek prid rod y konec tož tož z prisl z n-grami

Primer strojnega učenja: lematizacija s CLOG • program dobi učno množico za vsako oblikoslovno oznakoposebej (predpostavimo predhodno oblikoslovno označevanje) • če je napačna oblikoslovna oznaka, je (mogoče) napačna tudi lema • edina informacija, ki jo ima program o besedi, poleg njene oblikoslovne oznake je njena oblika (končnica) • učna množica je sestavljena iz parov besedna oblika/lema: Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([n,o,s,u],[n,o,s]).

Pravila CLOG • pravila so tipa X-pripona1 X-pripona2 • pravila so urejena od specifičnih k splošnim • program pravilno lematizira vse besede iz učne množnice (razen dvoumnih (sedel = sesti/sedeti), poudarek je na neznanih • odločitveni seznam za lematizacijo samostalnikov ženskega spola v rodilniku: Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[e],[a]),!.

Lematizator RDR • Ripple Down Rules: drugačen pristop k učenju odločitvenih seznamov • pravilo RDR:if -V then 0to0 because of [BRESKEV, POSTAVITEV]except if -HTEV then 0toA because of [ZAHTEV] • ta lematizator ne upošteva oblikoslovnih oznak, pač pa se odloča samo na osnovi končnice: • bolje ker je potrebno za lematizacijo manj znanja, s čimer tudi odpade vir napak • slabše ker je znanje o oblikoslovni kategoriji besedne oblike nujno za dobro lematizacijo:zagledala / zagledati, pedala / pedalo, FIDA+ *edala&~#2s*&~#2g* = 0022490.0000004“Skratka , eden od mnogih mojih intervjujev v stilu srečnasemkajbisesprenevedala.”

Učenje brez vodenja • strogo statistične metode(Clustering, Maximim Entropy, Minimum Description Length) • primer je identifikacija kolokacij (besednih zvez) • poišči vse besede, ki se bolj pogosto kot je običajno pojavljajo skupaj • statistične formule; problem so zelo redke (Šepetalec ubija) in zelo pogoste besede (je rekel) • iskanje kolokatorjev v orodju Wordsmith:poišči vse besede, ki se bolj pogosto kot pričakovano pojavljajo v bližini ključne besede

Ravni označevanja • Označevalne tehnike • Oznake korpusa FIDA

Oblikoslovne oznake • oznaka podaja oblikoskladenjsko funkcijo besede v besedilu • oznake najprej razvite za angleščino: • glavni problem je ločiti med besednimi vrstami (run[v] / run[N]) • revno oblikoslovje  malo različnih oznak, 20—100

BNC BASIC TAGSET • AJ0Adjective (general or positive) (e.g. good, old, beautiful) • AJC Comparative adjective (e.g. better, older) • AJS Superlative adjective (e.g. best, oldest) • AT0 Article (e.g. the, a, an, no) • … • CJC Coordinating conjunction (e.g. and, or, but) • CJS Subordinating conjunction (e.g. although, when) • CJT The subordinating conjunction that • CRD Cardinal number (e.g. one, 3, fifty-five, 3609) • NN0 Common noun, neutral for number (e.g. aircraft, data) • NN1 Singular common noun (e.g. pencil, goose, time) • NN2 Plural common noun (e.g. pencils, geese, times) • NP0 Proper noun (e.g. London, Michael, Mars, IBM) • ORD Ordinal numeral (e.g. first, sixth, 77th, last) • …

Nabori oznak za oblikoslovno bogate jezike • besedne oblike vsebujejo mnogo več informacije: spol, število, sklon, živost, določnost • primer zaimkov: • osebni, svojilni, povratni… • pridevniški, samostalniški • 3 števila, 3 spoli, 6 sklonov • spol in število “svojine” … • > 1000 različnih oznak • pri razdvoumljanju veliko več problemov z oblikoslovnimi podatki kot pa z besedno vrsto

Nabori oznak za slovenščino • nabor ZRC SAZU, http://bos.zrc-sazu.si/ • sledi slovenski slovnici • okrajšave čim bolj mnemonične • z njim ročno označen velik korpus (1M besed) • nabor oznak ni bil vnaprej določen • oznake razlikujejo nemotivirane kategorije (tipi lastnih imen) • označeni korpus ni dostopen za prenos • nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ • upošteva mednarodne standarde • oznake je možno mehanično razstavljati • z njim strojno označen velik korpus (FIDA, 100M besed) • ročno označeni korpus prosto dostopen (100k besed) • izpušča nekatere motivirane kategorije (povedkovnik, besedna vrsta okrajšave) • skop priročnik • npr. Pže1, E5 proti Afpfsn, Spsl

MULTEXT-East oblikoslovne specifikacije • dostopne na http://nl.ijs.si/ME/V3/msd/ • verzija 3, 2004-05-10 • sestavljene iz uvoda, skupnih tabel, in poglavij za posamezne jezike • originalno v LaTeX, izvedeni formati v HTML, PDF, XML

Osnovni namen specifikacij MULTEXT-East Določijo: • katere oblikoslovne oznake so dovoljene za posamezne jezike, • kaj pomenijo:Vmip3d--n = PoS:Verb, Type:main, VForm:indicative, Tense:present, Person:third, Number:dual, Gender:-, Voice:-, Negative:no • in še kaj..

Skupne tabele specifikacij

Nabor slovenskih oznak • v ročno označenem korpusu MULTEXT-East je prisotnih 1023 različnih oznak • v oblikoslovnem leksikonu MULTEXT-East jih je prisotnih 2083 • oznake z angleško razlago dostopne v msd-sl.txt

Specifikacije: poglavje za slovenščino

Lokalizacija • Afcfda = Pkpzdt • Afcfda = Adjective qualificative comparative feminine dual accusative • Pkpzdt = Pridevnik kakovostni primernik ženski dvojina tožilnik

Oznake korpusa FIDA • oznake MULTEXT-East, prevedene v slovenščino se uporabljajo v korpusu FIDA • v FIDA za vsako besedo prisotne vse možne oblike za to besedno obliko • 2271 različnih oznak • tabela en-sl oznak s slovenskimi razlagami dostopna na msdFIDA-sl.txt • tabela z razlagami je dostopna tudi na straneh FIDA+

Označevanje korpusov PNG Slovenistika II. letnik 2006

Označevanje korpusov PNG Slovenistika II. letnik 2006

Presentation Transcript

Holiday Shores 1 Civic Club 2006 Calendar

Holiday Shores 1 Civic Club 2006 Calendar

5 KORAKA DO REGISTRACIJE EKOLOŠKE PROIZVODNJE

Seminarska naloga Primo Trampu 4.letnik FI TEH 1999

NOP Jubiläumsfest 2006

Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12

Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 5. predavanje: logistična regresija

Pravo, 4. letnik

2. Štu dijska literatura

POJETÍ SPÁSY

Matura iz informatike

Gradnja in označevanje korpusov

SEMINARSKA NALOGA JAVNE SLUŽBE - JS

Metodologija projekta e-poslovanja

Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 3. predavanje:

abc    

2006 교정과 연감

Bolonjski študij

2006

Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 4. predavanje:

Status kandidata s posebnimi potrebami za vpis v 1. letnik dodiplomskega študija

Spremembe univerzitetnega dodiplomskega študijskega programa prve stopnje ARHEOLOGIJA