290 likes | 457 Views
Napredne metode u pronalaženju informacija. Cvetana Krstev čas 3. Tageri vrsta reči (Part-of-speech taggers).
E N D
Napredne metode u pronalaženju informacija Cvetana Krstev čas 3
Tageri vrsta reči (Part-of-speech taggers) • Tageri vrsta reči se oslanjaju na rad modula za određivanje granica između rečenica i tokenizatora, jer oni obeležavaju svaku reč odgovarajućom etiketom (tag), koja govori da li je reč glagol, imenica, pridev, zamenica, itd. • Primer dva moguća tagiranja rečenice sa slajda 6 (čas 1) bio bi: • U prvom slučaju visitingje označno kao pridev koji menja imenicu aunts dok je u drugom slučaju u pitanju gerundiv (glagolska imenica) glagola to visit. • Visiting/Adj aunts/N-Pl can/AUX be/V-inf-be a/DET-Indef nuisance/N-Sg • Visiting/V-Prog aunts/N-Pl can/AUX be/V-inf-be a/DET-Indef nuisance/N-Sg
Tageri vrsta reči/2 • Kada bi svi oblici reči dobijali samo jednu etiketu i ne bi bilo reči koje tager ne poznaje, etiketiranje vrstom reči bi bilo jednostavno. • Kao što prikazuje prethodni primer, reči mogu dobiti više etiketa, a uloga tagera je da izabere jednu (po mogućnosti ispravnu). • U prethodnom primeru tager nema dovoljno informacija da bi odlučio. Bilo bi potrebno da mu je poznat bar uski kontekst, na primer: • I ought to invite her, but visiting aunts can be a nuisance. • I ought to visit her, but visiting aunts can be a nuisance. • čak i tada bi analizator trebalo da izvede dosta složeno zaključivanje da bi izabrao pravo rešenje.
Dva glavna pristupa etiketiranju vrstom reči • Dva glavna pristupa etiketiranju su u skladu sa dva osnovna pristupa problemima obrade prirodnih jezika: • pristup zasnovan na pravilima • stohastiči pristup
Etiketiranje vrstom reči zasnovano na pravilima • Ovakvi tageri se zasnivaju na primeni lingvističkog znanja pomoću koga pokušavaju da odbace sekvencije etiketa koje bi bile sintaksički neispravne. • Jedno takvo pravilo za engleski bi bilo: • Ako nepoznatoj reči prethodi determinator, a iza nje sledi imenica, obeleži je kao pridev. • Neki tager se oslanjaju i na morfološko znanje koje treba da pomogne u odlučivanju: • Ako se nepoznata ili višeznačna reč završava na –ing, a prethodi joj glagol, obeleži je kao glagol. • Neki tageri su zasnovani na pravilima koja su u potpunosti ‘ručno’ napisana, dok se drugi zasnivaju na pravilima koju su izvedena različitim metodama (mašinskog učenja) iz velikih tekstualnih korpusa.
Stohistički tageri • Stohistički tageri se oslanjaju na podatke za obučavanje (test data), primenjujući pristup koji koristi informacije o frekvencijama pojavljivanja u tom skupu podataka da bi izračunali verovatnoće izbora određenih etiketa. • Podaci za obučavanje su obično unapred ručno etiketirani, tj. reči i etikete su ‘ručno’ povezane. • Zapravo, najčešće su mašinski etiketrani, a ručno je otklonjena višeznačnost • Ovo je najjednostavniji pristup izgradnje stohastičkih tagera koji može da dovede do generisanja sintaksički nekorektnih sekvenci, iako je svaka pojedinačna etiketa, gledana sama za sebe validna. • Na primer, u slučaju visiting aunts, tager može da označi visting kao glagol samo zato što se u skupu podataka na kome je obučen visting češće javlja u funkciji glagola nego prideva.
Složeniji stohastički tageri • Da bi poboljšali performanse, tageri se obično oslanjaju pri odlučivanju na širi kontekst. • Obično se koriste n-grami, što znači da se pri odlučivanju posmatraju i okolne reči, pre svega one koje prethode posmatranoj reči o čijoj etiketi se odlučuje. • Najjednostavni pristup koristi bigrame, a to znači da se računa frekvencija pojavljivanja svih kombinacija od dve reči u skupu podataka za obučavanje. • Ovaj pristup ne bi rešio problem visting aunts ali bi mogao da reši mnoge druge probleme, npr. • The/DET annual/ADJ race past the barn was cancelled. • We/PRON always/ADV race past the barn on Sundays. • Reči koje prethode race i njihove etikete su veoma korisne za određivanje da li je race imenica (prvi slučaj) ili glagol (drugi slučaj).
Tagiranje zasnovano na pravilima i rečnicima za srpski • Videti radove C. Krstev i D. Vitas sa stranice: poincare.matf.bg.ac.rs/~cvetana/CV_Bibl_nova.html • Prijaviti se na kurs na doktorskim studijama Leksičko prepoznavanje u obradi prirodnih jezika (Cvetana Krstev)
1984kao paralelni – poravnati – korpus • Korpus je kompiliran u okviru dva evropska projekta: TELRI i MULTEXT-East (90. godine prošlog veka) • Korpus čine verzije romana na 12 jezika: bugarski, češki, engleski, estonski, hrvatski, litvanski, mađarski, Resian, rumunski, ruski,srpskii slovenački • Korpus čini 12 bitekstova – svi prevodi su poravnati sa engleskom verzijom • Poravnavanje je urađeno poluautomatski do nivoa rečenice • Ceo korpus je morfosintakskičkianotiran za većinu jezika (uključujući i srpski) • Veoma koristan reusrs koji je korišćen u mnogim aplikacijama, najčešće kao zlatni standard (gold standard), odnosno kao skup podataka za obučavanje • Više o ovom resursu na adresi:http://nl.ijs.si/ME/V3/
Tagiranje srpskog teksta zasnovano na pravilima, rečnicima i ručnoj doradi <p id="Oshs.1.2.2" > <s id="Oshs.1.2.2.1" > <w lemma="biti" ana="Vmps-sman-n---p">Bio</w> <w lemma="jesam" ana="Va-p3s-an-y---p">je</w> <w lemma="vedar" ana="Afpms1n">vedar</w> <w lemma="i" ana="C-s">i</w> <w lemma="hladan" ana="Afpms1n">hladan</w> <w lemma="aprilski" ana="Aopmp1">aprilski</w> <w lemma="dan" ana="Ncmsn--n">dan</w> <w lemma="na" ana="Sps-">na</w> <w lemma="cyasovnik" ana="Ncmsa--n">cyasovnicima</w> <w lemma="jesam" ana="Va-p3s-an-y---p">je</w> <w lemma="izbijati" ana="Vmps-snan-n---e">izbijalo</w> <w lemma="trinaest" ana="Mc---l">trinaest</w>
Stohastičko etiketiranje vrstama reči za srpski • Za stohastičko etiketiranje za srpski videti rad iz časopisa Infoteka, godina 2010, broj 2 (u štampi): • Зоран Поповић Програми за етикетирање текста на српском језику
Prepoznavanje imeničkih fraza i naziva (imenovanih entiteta) • Ekstrakcija imeničkih fraza ide dalje od tagera vrstama reči u analizi teksta. • Njihov cilj je da identifikuju delove teksta koji se odnose na ljude, ustanove, objekte i slično. • Oni se često nazivaju parcijalni ili plitki (shallow) parseri za razliku od kompletnih ili dubokih (deep) parsera. • Prepoznavanje imeničkih fraza je veoma važno sa stanovištva pronalaženja informacija i srodnih zadataka jer su informacije koje se traže najčešće u toj formi.
Rad plitkih parsera za identifikovanje imeničkih fraza • Oni se često usredsređuju na identifikovanje osnovnih imeničkih fraza, koje se sastoje od glave fraze, što je najčešće glavna imenica u frazi i levih modifikatora, kao što su determinatori i pridevi ispred imenice. • ovo bi važilo za engleski, osnovne imeničke fraze za srpski bi drugačije izgledale • Oni se najčešće ne bave identifikovanjem predloških fraza i ne pokušavaju da razreše čemu su predloške fraze pridružene.
Pronalaženje naziva ili prepoznavanje imenovanih entiteta • Oni identifikuju u dokumentu vlastita imena i druge nazive i obično ih i klasifikuju kao oznake ljudi, institucija, događaja, mesta i slično. • Na primer, u sledećoj engleskoj rečenici: • Italy’s business world was rocked by the announcement last Thursday that Mr. Verdi would leave his job as vice-president of Music Masters of Milan, Inc to become operations director of Arthur Andersen. • Italy bi bilo prepoznato kao mesto, last Thursday kao datum, Mr. Verdi kao osoba, a Music Masters of Milan, Inc i Arthur Andersen kao kompanije. U ovom slučaju bilo bi pogrešno ako bi Milan i Arthur Anderson bili označeno kao mesto, osnosno osoba.
Prepoznavanje naziva i imenovanih entiteta u srpskom • Neka je dat tekst na srpskom jeziku: • Nedavne poplave nanele su, kako se procenjuje, oko 20 miliona dinara štete na putevima i oranicama u opštini Kuršumlija, saopštila jeopštinska komisija za procenu štete. Kako se navodi, komisija je zatražila odVlade Srbije nadoknadu za oko 200 hektara potpuno uništenih useva vrednih prekopet miliona dinara. Opštinska komisija zatražila je od Ministarstva zakapitalne investicije pomoć od preko 15 milionadinara za saniranje velikih šteta na lokalnim putevima.
Prepoznavanje naziva i imenovanih entiteta u srpskom/2 • U ovom trenutku bilo bi prepoznato: • Nedavne poplave nanele su, kako se procenjuje, oko <VALUTA>20 miliona dinara</VALUTA> štete na putevima i oranicama u opštini <MESTO TYPE=“grad”>Kuršumlija</MESTO>, saopštila jeopštinska komisija za procenu štete. Kako se navodi, komisija je zatražila odVlade <MESTO TYPE=“grad”>Srbije</MESTO> nadoknadu za oko <MERA>200 hektara</MERA> potpuno uništenih useva vrednih preko<VALUTA>pet miliona dinara</VALUTA>. Opštinska komisija zatražila je od Ministarstva zakapitalne investicije pomoć od preko <VALUTA>15 miliona dinara</VALUTA> za saniranje velikih šteta na lokalnim putevima.
Prepoznavanje naziva i imenovanih entiteta u srpskom/3 • Šta u ovom trenutku nije prepoznato ili nije dobro prepozanto: • Nedavne poplave nanele su, kako se procenjuje, oko <VALUTA>20 miliona dinara</VALUTA> štete na putevima i oranicama u opštini<MESTO TYPE=“grad”>Kuršumlija</MESTO>, saopštila jeopštinska komisija za procenu štete. Kako se navodi, komisija je zatražila odVlade <MESTO TYPE=“država”>Srbije </MESTO> nadoknadu za oko <MERA>200 hektara</MERA> potpuno uništenih useva vrednih preko<VALUTA>pet miliona dinara</VALUTA>. Opštinska komisija zatražila je od Ministarstva zakapitalne investicije pomoć od preko <VALUTA>15 miliona dinara</VALUTA> za saniranje velikih šteta na lokalnim putevima.
Kako funkcioniše prepoznavanje imenovanih entiteta • Veliki broj sistema za prepoznavanje entiteta u prethodnoj obradi teksta ne ide do nivoa tagiranja vrstom reči, već radi direktno nad tokenima koristeći njihove vidljive osobine (veliko slovo, titule iz liste titula, i sl). • Neki od sistema koriste ručno izgrađena pravila, dok drugi uče pravila iz nekog skupa podataka za treniranje (mašinsko učenje) ili grade statističke modele. • Prepoznavanje imenovanih entiteta za srpski se zasniva na korišćenju iscrpnih rečnika i razrađenih pravila formulisnaih korišćenjem konačnih automata. • Više o tome na času posvećenom imenovanim entitetima i na kursu na doktorskim studijama Leksičko prepoznavanje u obradi prirodnih jezika (Cvetana Krstev)
Parseri i gramatike • Za duboko parsiranje je potrebno da postoji gramatika u odnosu na koju se vrši parsiranje. • Gramatika je skup pravila koja govore (najjednostavnije govoreći) koje kombinacije vrsta reči (i drugih gramatičkih svojstava) daju dobro formirane fraze i rečeničke strukture. Na primer, • Colorless green ideas sleep furiously. • bi mogli da ocenimo kao sintaksički dobro formiranu jer je adjective+adjective+noun validna imenička fraza, verb+adverb je validna glagolska fraza, a noun_phrase+verb_phrase je validna rečenica.
Gramatike • S druge strane rečenica • Furiously sleep ideas green colorless • bi bila ocenjena kao gramatički nekorektna jer ni jedan od sledećih gramatičkih obrazaca ne predviđa gramatika engleskog jezika. • adverb+verb+noun+adjective+adjective • adverb+verb+noun+noun+adjective • adverb+noun+noun+adjective+adjective • adverb+noun+noun+noun+adjective • treba uzeti u obzir četiri obrasca jer sleep može da bude glagol i imenica, a green može da bude prediv ili imenica.
Semantička analiza • Semantička analiza uključuje identifikovanje različitih tipova reči odnosno fraza, npr. vrste vlastitih imena, ali i identifikovanje uloge koju te reči odnosno fraze imaju u rečenici, kao subjekat ili objekat. • Različiti sintaksički tipovi imaju različita svojstva. Na primer, imence ili imeničke fraze mogu da se odnose na nešto živo ili neživo, na organizacije, mesta, datume, događaje, sume novca, i sl.
Semantičke uloge • Semantičke uloge se mogu razlikovati od sintaktičkih uloga, na primer: • The Federal Court chastised Microsoft. • i • Microsoft was chastised by the Federal Court. • gramatički subjekat se razlikuje u ovim rečenicama koje imaju isto osnovno značenje. I u jednom i u drugom slučaju The Federal Court je “agent” a Microsoft je “recepient” događaja.
Identifikacija imeničkih fraza • Identifikacija imeničkih fraza je važan zadatak koji uopšte nije trivijalan. Za razliku od jednostavnih primera koje smo do sada viđali, imeničke fraze su u realnom tekstu često veoma složene: • A small screw holding the cylinder assembly in the frame of the revolver • Pisanje gramatičkih pravila je veoma težak, dugotrajan i odgovoran zadatak (čime se bavi lingvističko inženjerstvo). Iako su za engleski napisne mnoge (formalne) gramatike opšteg tipa, ni jedna od njih ne pokriva 100% sve reči i konstrukcije koje se u proizvoljnom tekstu mogu nači. • Stoga, svaki program koji treba da parsira nepoznati tekst mora da računa da će naići na nepoznate reči i konstrukcije i treba da ima neki odgovor na takve situacije.
Penn Treebank Project • Postoje resursi zasnovani na korpusu na koje se mogu oslanjati istraživači i konstruktori parsera. • Jedan takav resurs je Penn Treebank koji se razvija na Pensilvanijskom univerzitetu. • U okviru ovog projekta se dokumenta kolekcije tekstova anotiraju lingvističkom strukturom. • U okviru ovog projekta tokeni se etiketiraju vrstom reči i gramatičkim kategorijama, ali se osim toga označava parsirana struktura rečenice, da bi se na kraju dobila banka lingvističkih drveta.
Struktura fraze predstavljena kao drvo i kao ugnježdena lista • (S:(NP:Green ideas) (VP:sleep furiously)) S: green ideas sleep furiously NP: green ideas VP: sleep furiously
Složenija struktura fraze predstavljena kao drvo i kao ugnježdena lista • (S:(NP:(ADJ:Green) (NOUN:ideas)) (VP: (VERB:sleep) (ADV:furiously))) S: green ideas sleep furiously NP: green ideas VP: sleep furiously ADJ:green NOUN:ideas VERB:sleep ADV:furiously
Koji su problemi dubokog parsiranja • Veoma je teško (nemoguće) napisati sva pravila jednog jezika, a čak i kad bi to bilo moguće odmah bi se pojavile nove primene koje bi gramatiku učinile nepotpunom i zastarelom. • Nove reči i izrazi stvaraju slične probleme. Ne postoji rečnik koji bi makar približno pokrivao reči i izraze koji se pojavljuju, recimo, u poslovnom tekstu – kada se uzmu u obzir vlastita imena, akronimi, sleng, neologizmi i razne brojčane vrednosti. • Kompleksnost parsiranja je polinomijalna. Primena parsera zahteva ugnježdene petlje, tako da obrada jedne rečenice zahteva resurse (vremenske za obradu) koji su kubna funkcija dužine rečenice. • Svaka rečenica iz realnog teksta (značajne dužine i složenosti) dozvoljava jako mnogo mogućih delimičnih parsiranja od kojih treba odabrati pravo. • Zbog svega toga su alternative dubokom parsiranju – npr. plitki parseri – veoma primamljive, posebno za pronalaženje informacija.