1 / 22

Uvod u računalno jezikoslovlje

Uvod u računalno jezikoslovlje. Bilješke za predavanja Tehničko veleučilište Zagreb doc. dr. Marko Tadić Odsjek za lingvistiku Filozofski fakultet Sveučilišta u Zagrebu ak. god. 2000/2001. Lingvistika. Čime se bavi lin? znanost koja proučava lj. Jezik kao sustav znakova

tammy
Download Presentation

Uvod u računalno jezikoslovlje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uvod u računalno jezikoslovlje Bilješke za predavanja Tehničko veleučilište Zagreb doc. dr. Marko Tadić Odsjek za lingvistiku Filozofski fakultet Sveučilišta u Zagrebu ak. god. 2000/2001

  2. Lingvistika • Čime se bavi lin? • znanost koja proučava lj. Jezik kao sustav znakova • svaki sustav = apstrakcija => • subatomske čestice • fizikalni konstrukt kojim se objašnjavaju fizikalne pojave • apstrakcija koja se ne može istraživati izravno već posredno (parna komora itd.) • jezik = apstrakcija koja se ne može istraživati izravno već isključivo posredno, putem njegova ostvaraja = govor tj. tekst • jezik = sustav znakova s različitim funkcijama • prijenos obavijesti • iskazivanje pripadnosti skupini (političkoj, spolnoj, dobnoj...) • ludička funkcija (igranje jezikom = pjesnički jezik) • lingvistika daje opis nekoga jezika u obliku rječnika i gramatike • opis • popis (jezične jedinice na raznim jezičnim razinama) • propis (pravila kako se dane jezične jedinice kombiniraju) • dopuštene kombinacije jezičnih jedinica = ovjerene jezične postave (još uvijek apstraktna razina) • ostvarene (potvrđene) postave = tekst • jedan od osnovnih postulata opće lingvistike = proučavajući tekst i pravilnosti u njemu, lingvisti proučavaju sam sustav koji ga je organizirao tj. jezik na kojem je tekst ostvaren

  3. Čime se bavi comp-lin? • krećemo od naziva: lingvistika + računala => računalni “tretman” jezika • računalo je u mnogim znanostima danas nezaobilazni alat • računalni “tretman” jezika zanimljiv: lingvistima i informatičarima => interdisciplinarnost • u osnovi: obradba teksta • WP & DTP • Hipertekst • !ali: tekst (= lin. termin) = realizacija jezičnoga sustava tj. ostvaraj neke jezične postave • comp-lin = dvojaka • znanstveni pristup = lingvistički tj. zanima je uporaba računala u jezičnome opisu • inženjerski = primjena rezultata istraživanja u tehnologiji • Je li comp-lin. grana lingvistike? DA i NE! • comp-lin nije grana poput morfologije, sintakse, semantike... • organiziraju se oko definicije objekta istraživanja • pokušavaju opisati/objasniti neki vid jezične porabe • comp-lin = metodologija • primjenljiva na jezične jedinice na svim jezičnim razinama • no, ne organizira zasebnu lin. granu • !ali: dopušta nam, zahvaljujući primjeni svoje metodologije, razlikovanje između npr. comp-leksikografije i ne-comp-leksikografije, comp-sintakse i ne-comp-sintakse

  4. Srodna područja 1 • NLP (Natural Language Processing) • kad se na računalni “tretman” jezika gleda sa strane informatičara => računalna obradba prirodnoga jezika (NLP) • cilj je obraditi jezične podatke u što kraćem vremenu sa što manjim utroškom računalnih resursa = legitiman inženjerski zahtjev • Speech processing = obrada govornoga signala • računalno prepoznavanje/generiranje govora • do razine jezika => dovoljno posla za izdvajanje u zasebno područje • fonetika! (odvojena od lingvistike) => speech proc. pripada fonetici

  5. Srodna područja 2: JT 1 • JT (= jezične tehnologije (= HLT: Human Language Technology); definicija tehnologije prema Leksikonu LZ • definicija unutar EU Framework Programme 5 • glavno istraživačko područje: • IST = Information Society Technologies (Tehnologije za informacijsko društvo) (26.3% proračuna FP5) • key action III. (3. ključna akcija) IST-a: • MC&T = Multimedia Content and Tools (Multimed. sadržaji i alati) (564 Meuro) • najveći dio MC&T: • Human Language Technologies = HLT (uključuje obradbu jezika i govora)

  6. Srodna područja 3: JT 2 • 3 sastavnice JT: • jezični resursi • korpusi • digitalni rječnici • jezični alati • morfologija • generatori/analizatori • obilježivači vrsta riječi (POS taggers) • sintaksa • plitki/duboki/robusni parseri • prepoznavanje dijelova rečenice (imenične skupine...) • prepoznavanje naziva (osoba, organizacija, mjesto, datum, vrijeme, novac, postotak) • semantika • prepoznavanje leksičkoga značenja (sinonimija/antonimija...) • prepoznavanje rečeničnoga značenja (agens, pacijens...) • strojno (potpomognuto) prevođenje • komercijalni proizvodi

  7. Srodna područja 4 • AI (Umjetna inteligencija) • istraživanje i stvaranje “inteligentnih” sustava • tj. sustava koji se ponašaju na način koji izgleda “inteligentan” • greška prvih AI istraživača: cjelovit sustav tj. umjetni čovjek? • podsustavi • gledanje • slušanje • uporaba prirodnoga jezika • organizacija znanja • robotika • strategija • učenje • danas: izolirani, specijalizirani “inteligentni” sust

  8. Comp-lin: 2 osnovne metode • od danas samo o comp-lin • 2 osnovne metode tj. pristupa analizi jezične građe u comp-lin • statistički modeli • algoritamski modeli • statistički modeli • induktivni modeli • brojanje jezičnih jedinica tj. proučavanje njihove čestote (frekvencije = frq) • nakana: • usporedbom frq jezičnih jedinica pokušavaju se prepoznati odnosi među tim jedinicama • kvantitativna analiza • algoritamski modeli • deduktivni modeli • uspostavljanje formalnih odnosa među jezičnim jedinicama • nakana: • formalnim definicijama odnosa između klasa jezičnih jedinica provjerava se može li se formalno pravilo primijeniti na konkretan tekst • testiranje istraživačkih hipoteza

  9. Comp lin: 2 tipa comp lin • 2 tipa comp-lin s obzirom na predmet istraživanja • podatkovno orijentirana comp-lin • teorijski orijentirana comp-lin • nijedan od tipova nije isključivo prisutan u comp-lin istraživanjima: comp-lin istraživanje • kombinacija oba pristupa • jedan od njih prevladava

  10. Comp lin: jezične razine • comp-lin se primjenjuje na različitim j. razinama • fonološka/grafijska • razina riječi • leksikološka • morfološka • sintaktička • semantička • pragmatička • jezični znak • plan izraza jezičnoga znaka • plan sadržaja jezičnoga znaka

  11. Fonološka razina 1 • razina fonema tj. grafema • problem identičnosti fonem<>grafem • ?koliko hrv. ima: • fonema: 31 (uključiti samoglasničko r) • slova/grafemi: 27 (lj, nj, dž nisu slova nego dvoslovi) • ?dvoslovi u hrv. • eng, njem: 3- i 4-slovi (njem. tsch za č, tzsch za č također...) • brojanje fonema/grafema • distribucija • grafema (hrv. 1. = a) • dvoslova (hrv. 1. = a ) • troslova • itd. • distribucija i struktura • slogova (hrv. 1. = ?; hrv. najdulji = strast) • dijeljenje riječi na slogove (primjena u priprema za tisak kako bi se riječi pravilno dijelile na krajevima redaka)

  12. Fonološka razina 2 • pismovni sustavi (character sets; character = pisme; zauzimlje 1 byte memorije) • EBCDIC (‘60. godine, IBM) • ASCII (‘80. godine) • ANSI (standardizacija ASCII-ja) • Microsoft Code Pages (CP) • CP437 (= hrvatski CROSCII) • CP852 (= srednjo- i istočnoeuropski jezici) • CP1250 (= srednjo- i istočnoeuropski jezici) • CP1252 (= srednjo- i istočnoeuropski jezici) • ISO strandardi • Latin I • Latin II itd. • UniCode = svako pisme = 2 bytes • globalna jezična pokrivenost • primjena u XML-u, Javi, itd. • primjena obrade na razini fonema/grafema • kompresija tekstovnih poruka (e-mail, SMS, tekstovne baze podataka...)

  13. Leksička j. razina • rječnik tj. leksikografija (rječničarstvo) • morfologija (oblikoslovlje)

  14. Rječničarstvo (leksikografija) • uporaba računala = ostvarila “revoluciju” u leksikografiji • 19. st. metoda pisanja rječnika • papirnate kartice • kartonske kutije • sortiranje po abecedi ručno = mjesecima • uporaba računala (2 načina): • programi za uporabu (pretraživanje) rječnika • programi za stvaranje rječnika

  15. Programi za uporabu (pretraživanje) rječnika (CD, WWW rječnici) • pretraživanje digitalnoga rječnika • čovjeku: znatno lakše nego papirnatoga izdanja • stroju: moguć pristup i strojem tj. MRD (Machine Readable Dictionaries): sustavi za NLP na onim jezičnim razinama koje zahtijevaju podatak iz rječnika • primjer: www.yourdictionary.com • pretraživanje raznih rječnika za 230 jezika • 2000 pismenih jezika na svijetu • cca 7000 jezika na svijetu

  16. Programi za stvaranje rječnika • pisanje rječnika • specijalizirani editori za pisanje rječnika (Softlex npr.) • prilagodljivi/programabilni editori opće namjene (EMACS npr.) • princip rada: • postojeći implicitni elementi strukture leksikografskoga članka • čine se eksplicitnima tj. posebno se obilježavaju • prikupljanje i organiziranje građe za rječnik -> korpusi tj. korpusna lin. • metodološki pomak od 19. st. metode pisanja rječnika: stvarna jezična građa koja je sustavno skupljena i interpersonalno provjerljiva • !ne jezično znanje/osjećaj pojedinca • frq. podaci • konzistentnost rječnika • odsutnost kružnih definicija (npr. mrak v. tama; tama v. mrak) • uporaba nepoznatih riječi na desnoj strani rječnika • riječi koje potpadaju pod isti viši rodni pojam moraju biti definirane istovrsnom definicijom

  17. Korpusna lingvistika • korpus = zbirka tekstova odabranih prema ekspicitnim lingvističkim kriterijima • usustavljena građa za jezična istraživanja na svim razinama • generacije korpusa • 1. oko 1 milijun riječi npr. Brown korpus • 2. oko 10 milijuna riječi npr. COBUILD korpus • 3. oko 100 milijuna riječi npr. BNC (British National Corpus) • veličine korpusa = mjeri se u broju riječi-pojavnica • tipovi korpusa • opće-jezični <> specijalizirani korpusi • jednojezični <> višejezični korpusi (paralelni korpusi) • korpusni alati • popisi riječi (abecedni, odostražni, frekvencijski...) • konkordancije

  18. Morfologija • primjenljiva na jezike kod kojih riječi imaju više oblika • analiza i sinteza oblika riječi • morfotaksa = pravila spajanja osnova i nastavaka • alomorfija = različiti oblici morfema (npr. vuk-/vuč-/vuc-) • vuk- + -a = vuka • vuk- + -e = vuče • vuk- + -i = vuci • 2 razinska morfologija (Kimmo Koskeniemmi) • leksička (= dubinska) razina • tekstovna (= površinska) razina • povezane pravilima

  19. Sintaksa S • računalna analiza rečenične strukture • računalno generiranje rečenica • formalne gramatike • Noam Chomsky • TGG (transformacijska generativnagramatika) • dubinska/površinska struktura • pravila prepisivanjaS  NP+VPNP NVP V+PPPP  P+NP • završni (N, V, P) i nezavršni (S, NP, VP, PP) simboli • generiranje rečenica NP VP PP NP N V P N Klaudija sjedi na stolcu.

  20. Semantika • semantičke mreže • kodiranje odnosa između riječi • sinonimi (riječi sličnog značenja) • antonimi (riječi suprotnoga značenja) • hiperonimi (riječi koje označuju nadređeni pojam) • hiponimi (riječi koje označuju podređeni pojam) • meronimija (riječi koje označuju dio od cjeline) • WordNet • EuroWordNet

  21. Strojno prevođenje 1 • prevođenje • postupak “prenošenja” značenja s jednoga prirodnog jezika na drugi • strojno prevođenje (MT) • postupak prevođenja koje obavlja računalo, poželjno automatski • polazni jezik (SL) • ciljni jezik (TL) • jezični par = SL:TL • “rano” strojno prevođenje • ‘50. godine, hladni rat, 1. par = ruski:engleski • 1964. ALPAC izvještaj: prekid svih državnih financija za MT • revitalizacija krajem ‘70. • primjena: ograničena domena, vokabular i sintaktičke strukture • Canada: Meteo od 1977. • danas: SYSTRAN u EU u 1999. preveo 600.000 stranica dokumenata

  22. Strojno prevođenje 2 • 2 tipa sustava • temeljeni na pravilima (rule-based) • temeljeni na podacima (empirijski) • rule-based sustavi • izravni (transformacijski) • neizravni (s jezičnim znanjem) • transfer • interlingua • empirijski sustavi • statistički • oprimjerivanje (example-based) • strojno potpomognuto prevođenje • prijevodne memorije (translation memory) • terminološke baze podataka

More Related