230 likes | 406 Views
Uvod u računalno jezikoslovlje. Bilješke za predavanja Tehničko veleučilište Zagreb doc. dr. Marko Tadić Odsjek za lingvistiku Filozofski fakultet Sveučilišta u Zagrebu ak. god. 2000/2001. Lingvistika. Čime se bavi lin? znanost koja proučava lj. Jezik kao sustav znakova
E N D
Uvod u računalno jezikoslovlje Bilješke za predavanja Tehničko veleučilište Zagreb doc. dr. Marko Tadić Odsjek za lingvistiku Filozofski fakultet Sveučilišta u Zagrebu ak. god. 2000/2001
Lingvistika • Čime se bavi lin? • znanost koja proučava lj. Jezik kao sustav znakova • svaki sustav = apstrakcija => • subatomske čestice • fizikalni konstrukt kojim se objašnjavaju fizikalne pojave • apstrakcija koja se ne može istraživati izravno već posredno (parna komora itd.) • jezik = apstrakcija koja se ne može istraživati izravno već isključivo posredno, putem njegova ostvaraja = govor tj. tekst • jezik = sustav znakova s različitim funkcijama • prijenos obavijesti • iskazivanje pripadnosti skupini (političkoj, spolnoj, dobnoj...) • ludička funkcija (igranje jezikom = pjesnički jezik) • lingvistika daje opis nekoga jezika u obliku rječnika i gramatike • opis • popis (jezične jedinice na raznim jezičnim razinama) • propis (pravila kako se dane jezične jedinice kombiniraju) • dopuštene kombinacije jezičnih jedinica = ovjerene jezične postave (još uvijek apstraktna razina) • ostvarene (potvrđene) postave = tekst • jedan od osnovnih postulata opće lingvistike = proučavajući tekst i pravilnosti u njemu, lingvisti proučavaju sam sustav koji ga je organizirao tj. jezik na kojem je tekst ostvaren
Čime se bavi comp-lin? • krećemo od naziva: lingvistika + računala => računalni “tretman” jezika • računalo je u mnogim znanostima danas nezaobilazni alat • računalni “tretman” jezika zanimljiv: lingvistima i informatičarima => interdisciplinarnost • u osnovi: obradba teksta • WP & DTP • Hipertekst • !ali: tekst (= lin. termin) = realizacija jezičnoga sustava tj. ostvaraj neke jezične postave • comp-lin = dvojaka • znanstveni pristup = lingvistički tj. zanima je uporaba računala u jezičnome opisu • inženjerski = primjena rezultata istraživanja u tehnologiji • Je li comp-lin. grana lingvistike? DA i NE! • comp-lin nije grana poput morfologije, sintakse, semantike... • organiziraju se oko definicije objekta istraživanja • pokušavaju opisati/objasniti neki vid jezične porabe • comp-lin = metodologija • primjenljiva na jezične jedinice na svim jezičnim razinama • no, ne organizira zasebnu lin. granu • !ali: dopušta nam, zahvaljujući primjeni svoje metodologije, razlikovanje između npr. comp-leksikografije i ne-comp-leksikografije, comp-sintakse i ne-comp-sintakse
Srodna područja 1 • NLP (Natural Language Processing) • kad se na računalni “tretman” jezika gleda sa strane informatičara => računalna obradba prirodnoga jezika (NLP) • cilj je obraditi jezične podatke u što kraćem vremenu sa što manjim utroškom računalnih resursa = legitiman inženjerski zahtjev • Speech processing = obrada govornoga signala • računalno prepoznavanje/generiranje govora • do razine jezika => dovoljno posla za izdvajanje u zasebno područje • fonetika! (odvojena od lingvistike) => speech proc. pripada fonetici
Srodna područja 2: JT 1 • JT (= jezične tehnologije (= HLT: Human Language Technology); definicija tehnologije prema Leksikonu LZ • definicija unutar EU Framework Programme 5 • glavno istraživačko područje: • IST = Information Society Technologies (Tehnologije za informacijsko društvo) (26.3% proračuna FP5) • key action III. (3. ključna akcija) IST-a: • MC&T = Multimedia Content and Tools (Multimed. sadržaji i alati) (564 Meuro) • najveći dio MC&T: • Human Language Technologies = HLT (uključuje obradbu jezika i govora)
Srodna područja 3: JT 2 • 3 sastavnice JT: • jezični resursi • korpusi • digitalni rječnici • jezični alati • morfologija • generatori/analizatori • obilježivači vrsta riječi (POS taggers) • sintaksa • plitki/duboki/robusni parseri • prepoznavanje dijelova rečenice (imenične skupine...) • prepoznavanje naziva (osoba, organizacija, mjesto, datum, vrijeme, novac, postotak) • semantika • prepoznavanje leksičkoga značenja (sinonimija/antonimija...) • prepoznavanje rečeničnoga značenja (agens, pacijens...) • strojno (potpomognuto) prevođenje • komercijalni proizvodi
Srodna područja 4 • AI (Umjetna inteligencija) • istraživanje i stvaranje “inteligentnih” sustava • tj. sustava koji se ponašaju na način koji izgleda “inteligentan” • greška prvih AI istraživača: cjelovit sustav tj. umjetni čovjek? • podsustavi • gledanje • slušanje • uporaba prirodnoga jezika • organizacija znanja • robotika • strategija • učenje • danas: izolirani, specijalizirani “inteligentni” sust
Comp-lin: 2 osnovne metode • od danas samo o comp-lin • 2 osnovne metode tj. pristupa analizi jezične građe u comp-lin • statistički modeli • algoritamski modeli • statistički modeli • induktivni modeli • brojanje jezičnih jedinica tj. proučavanje njihove čestote (frekvencije = frq) • nakana: • usporedbom frq jezičnih jedinica pokušavaju se prepoznati odnosi među tim jedinicama • kvantitativna analiza • algoritamski modeli • deduktivni modeli • uspostavljanje formalnih odnosa među jezičnim jedinicama • nakana: • formalnim definicijama odnosa između klasa jezičnih jedinica provjerava se može li se formalno pravilo primijeniti na konkretan tekst • testiranje istraživačkih hipoteza
Comp lin: 2 tipa comp lin • 2 tipa comp-lin s obzirom na predmet istraživanja • podatkovno orijentirana comp-lin • teorijski orijentirana comp-lin • nijedan od tipova nije isključivo prisutan u comp-lin istraživanjima: comp-lin istraživanje • kombinacija oba pristupa • jedan od njih prevladava
Comp lin: jezične razine • comp-lin se primjenjuje na različitim j. razinama • fonološka/grafijska • razina riječi • leksikološka • morfološka • sintaktička • semantička • pragmatička • jezični znak • plan izraza jezičnoga znaka • plan sadržaja jezičnoga znaka
Fonološka razina 1 • razina fonema tj. grafema • problem identičnosti fonem<>grafem • ?koliko hrv. ima: • fonema: 31 (uključiti samoglasničko r) • slova/grafemi: 27 (lj, nj, dž nisu slova nego dvoslovi) • ?dvoslovi u hrv. • eng, njem: 3- i 4-slovi (njem. tsch za č, tzsch za č također...) • brojanje fonema/grafema • distribucija • grafema (hrv. 1. = a) • dvoslova (hrv. 1. = a ) • troslova • itd. • distribucija i struktura • slogova (hrv. 1. = ?; hrv. najdulji = strast) • dijeljenje riječi na slogove (primjena u priprema za tisak kako bi se riječi pravilno dijelile na krajevima redaka)
Fonološka razina 2 • pismovni sustavi (character sets; character = pisme; zauzimlje 1 byte memorije) • EBCDIC (‘60. godine, IBM) • ASCII (‘80. godine) • ANSI (standardizacija ASCII-ja) • Microsoft Code Pages (CP) • CP437 (= hrvatski CROSCII) • CP852 (= srednjo- i istočnoeuropski jezici) • CP1250 (= srednjo- i istočnoeuropski jezici) • CP1252 (= srednjo- i istočnoeuropski jezici) • ISO strandardi • Latin I • Latin II itd. • UniCode = svako pisme = 2 bytes • globalna jezična pokrivenost • primjena u XML-u, Javi, itd. • primjena obrade na razini fonema/grafema • kompresija tekstovnih poruka (e-mail, SMS, tekstovne baze podataka...)
Leksička j. razina • rječnik tj. leksikografija (rječničarstvo) • morfologija (oblikoslovlje)
Rječničarstvo (leksikografija) • uporaba računala = ostvarila “revoluciju” u leksikografiji • 19. st. metoda pisanja rječnika • papirnate kartice • kartonske kutije • sortiranje po abecedi ručno = mjesecima • uporaba računala (2 načina): • programi za uporabu (pretraživanje) rječnika • programi za stvaranje rječnika
Programi za uporabu (pretraživanje) rječnika (CD, WWW rječnici) • pretraživanje digitalnoga rječnika • čovjeku: znatno lakše nego papirnatoga izdanja • stroju: moguć pristup i strojem tj. MRD (Machine Readable Dictionaries): sustavi za NLP na onim jezičnim razinama koje zahtijevaju podatak iz rječnika • primjer: www.yourdictionary.com • pretraživanje raznih rječnika za 230 jezika • 2000 pismenih jezika na svijetu • cca 7000 jezika na svijetu
Programi za stvaranje rječnika • pisanje rječnika • specijalizirani editori za pisanje rječnika (Softlex npr.) • prilagodljivi/programabilni editori opće namjene (EMACS npr.) • princip rada: • postojeći implicitni elementi strukture leksikografskoga članka • čine se eksplicitnima tj. posebno se obilježavaju • prikupljanje i organiziranje građe za rječnik -> korpusi tj. korpusna lin. • metodološki pomak od 19. st. metode pisanja rječnika: stvarna jezična građa koja je sustavno skupljena i interpersonalno provjerljiva • !ne jezično znanje/osjećaj pojedinca • frq. podaci • konzistentnost rječnika • odsutnost kružnih definicija (npr. mrak v. tama; tama v. mrak) • uporaba nepoznatih riječi na desnoj strani rječnika • riječi koje potpadaju pod isti viši rodni pojam moraju biti definirane istovrsnom definicijom
Korpusna lingvistika • korpus = zbirka tekstova odabranih prema ekspicitnim lingvističkim kriterijima • usustavljena građa za jezična istraživanja na svim razinama • generacije korpusa • 1. oko 1 milijun riječi npr. Brown korpus • 2. oko 10 milijuna riječi npr. COBUILD korpus • 3. oko 100 milijuna riječi npr. BNC (British National Corpus) • veličine korpusa = mjeri se u broju riječi-pojavnica • tipovi korpusa • opće-jezični <> specijalizirani korpusi • jednojezični <> višejezični korpusi (paralelni korpusi) • korpusni alati • popisi riječi (abecedni, odostražni, frekvencijski...) • konkordancije
Morfologija • primjenljiva na jezike kod kojih riječi imaju više oblika • analiza i sinteza oblika riječi • morfotaksa = pravila spajanja osnova i nastavaka • alomorfija = različiti oblici morfema (npr. vuk-/vuč-/vuc-) • vuk- + -a = vuka • vuk- + -e = vuče • vuk- + -i = vuci • 2 razinska morfologija (Kimmo Koskeniemmi) • leksička (= dubinska) razina • tekstovna (= površinska) razina • povezane pravilima
Sintaksa S • računalna analiza rečenične strukture • računalno generiranje rečenica • formalne gramatike • Noam Chomsky • TGG (transformacijska generativnagramatika) • dubinska/površinska struktura • pravila prepisivanjaS NP+VPNP NVP V+PPPP P+NP • završni (N, V, P) i nezavršni (S, NP, VP, PP) simboli • generiranje rečenica NP VP PP NP N V P N Klaudija sjedi na stolcu.
Semantika • semantičke mreže • kodiranje odnosa između riječi • sinonimi (riječi sličnog značenja) • antonimi (riječi suprotnoga značenja) • hiperonimi (riječi koje označuju nadređeni pojam) • hiponimi (riječi koje označuju podređeni pojam) • meronimija (riječi koje označuju dio od cjeline) • WordNet • EuroWordNet
Strojno prevođenje 1 • prevođenje • postupak “prenošenja” značenja s jednoga prirodnog jezika na drugi • strojno prevođenje (MT) • postupak prevođenja koje obavlja računalo, poželjno automatski • polazni jezik (SL) • ciljni jezik (TL) • jezični par = SL:TL • “rano” strojno prevođenje • ‘50. godine, hladni rat, 1. par = ruski:engleski • 1964. ALPAC izvještaj: prekid svih državnih financija za MT • revitalizacija krajem ‘70. • primjena: ograničena domena, vokabular i sintaktičke strukture • Canada: Meteo od 1977. • danas: SYSTRAN u EU u 1999. preveo 600.000 stranica dokumenata
Strojno prevođenje 2 • 2 tipa sustava • temeljeni na pravilima (rule-based) • temeljeni na podacima (empirijski) • rule-based sustavi • izravni (transformacijski) • neizravni (s jezičnim znanjem) • transfer • interlingua • empirijski sustavi • statistički • oprimjerivanje (example-based) • strojno potpomognuto prevođenje • prijevodne memorije (translation memory) • terminološke baze podataka