1 / 28

Uvod u računalnu metodologiju za jezično istraživanje

Uvod u računalnu metodologiju za jezično istraživanje. Razine formalnog opisa i obrada jezika. Obrada jezika – termini. Označavanje ( tagging, mark-up ) je pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst

tavi
Download Presentation

Uvod u računalnu metodologiju za jezično istraživanje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uvod u računalnu metodologiju za jezično istraživanje Razine formalnog opisa i obrada jezika

  2. Obrada jezika – termini • Označavanje (tagging, mark-up) je pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst • Oznake (tags) – umeću se u tekst • Pri obilježavanju korpusa oznake se umeću iz određenoga skupa oznaka • Skupoznaka (tagset) je popis svih mogućih oznaka kojima se može obilježavati tekst

  3. Razine obrade prirodnoga jezika (bez semantike) • tokenizacija (opojavničenje) • segmentacija na rečenice • lematizacija • POS i MSD označavanje • plitko (shallow) parsanje • dubinsko (deep) parsanje • POGRŠKE SE ČESTO ZBRAJAJU!

  4. Opojavničenje • Postupak identifikacije i ekspliciranja pojavnica, tj. lingvističkih jedinica kao što su “riječi”, interpunkcija, znamenke i sl. • Iako izgleda trivijalan problem, promotrimo slučajeve: 11. travnja 2008., Austro-Ugarska, daljinski upravljač, npr., SAD-a, we’ll, isn’t, Lebensversicherungsgesellschaftsangestellter, itd. • O koliko je pojavnica riječ?

  5. Segmentacija na rečenice • Ekspliciranje granica između rečenica • Znakovi interpunkcije (., ?, !) uvijek kraj rečenice? • Heuristički gledano, oko 90% točaka jesu krajevi rečenica! • PROBLEMI: titule, kratice, inicijali i sl. • Prof. Ivić, npr. Austrija, Antun B. Šimić, J. K. itd. • Moguće riješiti ekskluzivnim pravilima (regularnim), preciznost > 99 %

  6. Lematizacija • Lematizacija (lemmatisation) je svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu • Lema je onaj oblik pod kojim bismo tražili neku riječ u rječniku • Lema predstavlja sve oblike određene riječi

  7. Lematizacija • Na primjer, pojavnice walked, walks ili walking bile bi svedene na lemu (to) walk • Na primjer, pojavnice stol, stolova ili stolu bile bi svedene na lemu stol • Lematizacija se na isti način primjenjuje na morfološki supletivne oblike, npr. jesam, bijah ili bila svode se na leksem biti • Nije isto što i stemming: pojavnicu stemmer→stemm, ali better→tek lematizator ispravno svodi na good

  8. Označavanje vrsta riječi(Part-of-speech (POS) tagging) • Označavanjevrsta riječi (POS tagging) je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu • Spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je npr. sintaktički parsing, chunking

  9. POS označivač (tagger) • Alat s pomoću kojega se obavlja automatsko POS označavanje naziva se POS označivač (tagger) • Osnovna podjela prema načinu rada na: • One koji se zasnivaju na pravilima (Rule based) • Vjerojatnosne (Probabilistic)

  10. Označavanje vrsta riječi • Točnost automatskog označavanja danas: do 96-97 % • POS oznake prvi su korak u razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik, a različite gramatičke kategorije i/ili značenje

  11. Alembic tagger vs. QTAG

  12. Prepoznavanje imena (Name recognition) • Imena su često nepoznata sustavu za obradu jezika (nema ih u leksikonu) • Osobe, lokacije, tvrtke itd. čine otvoren popis jezičnog inventara • U nekim žanrovima teksta pokrivaju čak jednu desetinu cjelokupnoga teksta • Često se obavlja prije POS označavanja ili parsinga

  13. Name recognition - eng <ENAMEX TYPE="LOCATION">Washington</ENAMEX>, <TIMEX TYPE="DATE">March 7</TIMEX> (<ENAMEX TYPE="ORGANIZATION">Bloomberg</ENAMEX>) -- <ENAMEX TYPE="ORGANIZATION">MCI Communications Corp.</ENAMEX> and <ENAMEX TYPE="ORGANIZATION">News Corp.</ENAMEX> said they will pay <ENAMEX TYPE="ORGANIZATION">Loral Corp.</ENAMEX> more than <NUMEX TYPE="MONEY">$400 million</NUMEX> to build two satellites for a direct television broadcasting venture. <ENAMEX TYPE="ORGANIZATION">Loral</ENAMEX> said it will launch the first satellite <TIMEX TYPE="DATE">late next year</TIMEX> and the second in <TIMEX TYPE="DATE">1998</TIMEX>. <ENAMEX TYPE="ORGANIZATION">MCI</ENAMEX> said it expects to offer satellite television in the <ENAMEX TYPE="LOCATION">U.S.</ENAMEX> by the <TIMEX TYPE="DATE">end of 1997</TIMEX>.

  14. Parsanje (parsing) • Parsanje (ili sintaktička raščlamba, sintaktička analiza) je postupak analize nizova pojavnica u rečenici kako bi se utvrdila njena gramatička struktura s obzirom na zadanu formalnu gramatiku

  15. Plitko parsanje • Plitko parsanje (eng. shallow parsing, light parsing) – je postupak analize rečenice kod kojeg se prepoznaju sastavnice (konstituenti), ali se ne prepoznaje interna struktura sastavnica, niti njihova uloga u rečenici • Sastavnice – NP, VP, PP, ADVP

  16. Što je sastavnica? • U nekim slučajevima ne postoji suglasnost svih lingvista što je točno sastavnica, ali osnovne prihvaćene značajke su: • Distribucija: sastavnica se ponaša kao jedinica koja se može pojaviti na različitim mjestima u rečenici (scrambling) • Zamjena i proširenje: I sat [on the box/right on the top of the box/there]

  17. Dubinsko parsanje • Dubinsko (deep, full parsing) parsanje je postupak kojim se utvrđuje cjelovita hijerarhijska struktura rečenice • Drugim riječima, od linearnog ulaza (rečenice) izgrađuje se hijerarhijska struktura (stablo) • Struktura rečenice najčešće se definira nizom beskontekstnih pravila

  18. Dubinsko parsanje • Rezultat obrade je stablo parsanja:

  19. Banke stabala - The Penn Treebank ( (S (NP-SBJ (DT The) (NN move)) (VP (VBD followed) (NP (NP (DT a) (NN round)) (PP (IN of) (NP (NP (JJ similar) (NNS increases)) (PP (IN by) (NP (JJ other) (NNS lenders))) (PP (IN against) (NP (NNP Arizona) (JJ real) (NN estate) (NNS loans)))))) (, ,) (S-ADV (NP-SBJ (-NONE- *)) (VP (VBG reflecting) (NP (NP (DT a) (VBG continuing) (NN decline)) (PP-LOC (IN in) (NP (DT that) (NN market))))))) (. .)))

  20. Zašto je prepoznavanje prirodnoga jezika toliko složeno? • Znanje određenog jezika (tj. njegov leksikon i gramatika) pruža moguće interpretacije određenog iskaza • Željena/namjeravana interpretacija ovisi o kontekstu, diskursu, konvencijama komunikacije i izvanjezičnom znanju • Na primjer, potrebno je izabrati između više smislova riječi, više alternativnih parsinga rečenice itd. koji zahtijevaju izvanjezično znanje

  21. Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! • Fed raises interest rates 0.5% in effort to control inflation.(NYTnaslov 17. svibnja. 2000) • Stablo parsanja:

  22. Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! • Višeznačnost vrsta riječi (POS) in effort to control infl. • Višeznačnost sintaktičkog pridruživanja • Skrivene strukture u jeziku često su iznimno višeznačne!

  23. Oznake • NN- noun, common singular (action) • NNS- noun, common plural (actions) • NNP- noun, proper singular (Thailand) • VBZ- verb, -s (believes) • VB- verb, base (believe) • VBP- verb, non-3rd person singular present • CD - number, cardinal (four)

  24. Stabla parsanja

  25. Stabla parsanja • Ako izradimo pravila formalne gramatike: • S  NP VP NN  interest • NP  (DT) NN NNS  rates • NP  NN NNS NNS  raises • NP  NNP VBP  interest • VP  V NP VBZ  rates • … • Najmanja (minimalna) gramatika promatrane rečenice daje 10 stabala parsanja • Jednostavna gramatika koja se sastoji od 10 pravila daje 592 stabala parsanja • Cjelovita gramatika eng. → više od milijun stabala

  26. Tipičan problem obrade prirodnoga jezika • Gramatike s velikim ograničenjima nastoje limitirati manje vjerojatne/željene parsinge • To ih čini manje robusnima i mnoge rečenice nemaju stabla • Gramatike s manjim ograničenjima mogu parsati više rečenica • Čak jednostavne rečenice imaju više stabala • Statističkim metodama pronalaze se najvjerojatnija rješenja (stabla)!

  27. Drugi pogled na jezičnu strukturu • Postoje i formalni gramatički opisi koji se ne zasnivaju na sastavnicama • Npr. ovisnosna gramatika (dependency grammar) (Tesnière, Mel´čuk) – pokazuje koje riječi ovise (modificiraju ih ili su argumenti od) neke druge riječi • Proizvodi stabla ovisnosti, ne konstituentska stabla • Nema sastavničkih čvorova • Prikladnija za opis jezika sa “slobodnijim redom riječi”

  28. Ovisnosna (dependency) i konstituentska struktura

More Related