1.18k likes | 1.63k Views
Prevoditelj i ra čunalo. Marko Tadić (marko.tadic@ffzg.hr) Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Poslijediplomski studij prevođenja , Zagreb, 2002-02 i 2002-03. Pregled 1. predavanja. računalna lingvistika jezične tehnologije (JT, HLT ) podjela JT
E N D
Prevoditelj i računalo Marko Tadić(marko.tadic@ffzg.hr) Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Poslijediplomski studij prevođenja, Zagreb, 2002-02 i 2002-03
Pregled 1. predavanja • računalna lingvistika • jezične tehnologije (JT, HLT) • podjela JT • situacija s hrvatskim jezikom • portal JTHJ • perspektive • JT u prevođenju • korpusi • rječnici / leksičke (terminološke) baze • prevoditeljska radna stanica (TWS) • strojno (potpomognuto) prevođenje (M(A)T)
Uvod 1: računalna lingvistika • naziv: lingvistika + računalo = • računalni “tretman” jezika • lingvistika na prvom mjestu • računalo: u mnogim znanostima danas nezaobilazan alat (fizika, (bio-)kemija, ekonomija, promet...) • prikupljanje primarnih podataka (= empirija) • oblikovanje sekundarnih podataka i teorija (= modeliranje) • računalni “tretman” jezika zanimljiv: • lingvistima • informatičarima • interdisciplinarnost
Uvod 2: strojna obradba jezika • naziv 2: računalo + lingvistika = • računalni “tretman” jezika • obrada podataka tj. informatika na prvom mjestu • razlika: • lingvisti: računalna lingvistika • računala u jezičnom opisu (modeli j. pod-sustava) • cilj: što kvalitetniji opis jezičnih činjenica • informatičari: obrada prirodnoga jezika(natural language processing, NLP) • računala u obradi prirodnojezičnih podataka • vrsta strojne obradbe teksta • cilj: što učinkovitije, što brže i sa što manjim utroškom računalnih resursa obraditi (jezične) podatke
Uvod 3: metodologija • je li računalna lingvistika grana lingvistike? • DA i NE! • NE: grana poput fonologije, morfologije, sintakse... • organiziraju se oko definicije predmeta istraživanja(j. jedinice na određenim j. razinama) • pokušavaju opisati/objasniti neki vid jezične porabe • DA: posebna metodologija • primjenljiva na j. jedinice na svim j. razinama • dopušta razliku između računalne i neračunalne: • leksikografije • sintakse... • primjena znanstvenih otkrića u industriji = tehnologija
Jezične tehnologije 1 • tehnologija = “znanost o tehničkim postupcima prerade sirovina u proizvode” (Leksikon LZ) • što je sirovina, a što proizvod u slučaju jezičnih tehnologija? • sirovina: jezik tj. podaci o jeziku • proizvodi: sustavi koji korisniku omogućuju jednostavn(ij)u uporabu prirodnoga jezika u računalnome okružju • podaci o jeziku = temeljni za razvitak jezičnih tehnologija
Jezične tehnologije 2 • definirane u EU Framework Programme 5 (< LI & LE) • najveće pojedinačno istraživačko područje u FP5: • IST = Information Society Technologies(26.3%proračuna FP5 = 3,900 M€) • key action III IST-a: • MC&T = Multimedia Content & Tools (564 M€) • najveći dio MC&T: • HLT = Human Language Technologies = (prirodno)jezične tehnologije • uključuju i obradu govora (Speech processing) • HLTcentral: www.hltcentral.org • nastavak u EU Framework Programme 6: eContent
Podjela JT 1 • jezični resursi • korpusi • rječnici • jezični alati • morfologija • generatori/analizatori • označivači (POS taggers), lematizatori • sintaksa • plitki/duboki/robusni parseri • prepoznavanje dijelova rečenice (imenične fraze...) • prepoznavanje naziva (named entity recognition...) • semantika • detektiranje leksičkoga značenja (sinonimija/antonimija...) • detektiranje rečeničnoga značenja (agens, pacijens...) • strojno (potpomognuto) prevođenje: M(A)T (CMU & US Army) • strojno (potpomognuto) učenje jezika: CALL
Podjela JT 2 • komercijalni proizvodi • provjernici (checkers) • pravopisa • gramatike • stila • rječnici (on-/off-line) • tezaurusi / pojmovnici • leksičke baze (opći i specijalizirani rječnici) • automatsko indeksiranje i sažimanje dokumenata • text-to-speech i speech-to-text sustavi, npr. • strojevi za diktiranje • sustavi za strojno (potpomognuto) prevođenje • prijevodne memorije (= paralelni korpusi) • ograničeno strojno prevođenje (kontrolirani jezici) • grubo strojno prevođenje (tekst za osnovne informacije) • sustavi za strojno (potpomognuto) učenje jezika
Razvitak JT za pojedini jezik 1 • resursi i alati • specifični za svaki jezik • razvoj JT počinje iz temeljaca za svaki pojedini jezik • resursi • priskrbljuju temeljne jezične podatke (evidenciju, statistiku i relaciju) za: • razvoj drugih jezičnih resursa • razvoj jezičnih alata • razvitak JT • planiran • potpomognut (industrija, država...)
RazvitakJT zapojedinijezik 2 Petek (2000:107)
Primjer uporabe JT 1 • danas: ubrzano stvaranje e-teksta • prebacivanje postojećih tekstova u e-tekst • stvaranje novih dokumenata jedino kao e-tekst • razlika klasični tekst <> e-tekst: • medij: papir è elektroni • čitanje/pohrana teksta: linearno ènelinearno (prema potrebi) • što se nije promijenilo? • uporaba prirodnoga jezika kojim se tekst stvara tj. kojim se kodiraju podaci • većina znanja = još uvijek pohranjena i kao tekst na nekom prirodnom jeziku
Primjer uporabe JT 2 • procjena broja riječi po jezicima dohvatljivog Altavistom 2000-02(izvor: Greg Grefenstette, XRCE,2000-09) • potrebna je ekstrakcija podataka iz teksta
Primjer uporabe JT 3 • može li pretraživanje dokumenata biti “svjesno” prirodnoga jezika tih dokumenata • web-tražilice (npr.) = prilagođene za engleski • što s drugim jezicima s različitim strukturama? • može li lingvistika nekako pomoći u “izvlačenju” podataka (znanja) iz teksta? • document retrieval meets human language technologies...
Primjer uporabe JT 4: morfologija • upit “osjetljiv” na oblike riječi
Primjer uporabe JT 5: semantika • upit “osjetljiv” na značenje riječi • uporaba semantičkih mreža • WordNet • EuroWordNet 1 i 2
Primjer uporabe JT 6: višejezičnost • višejezično pretraživanje • grubo strojno prevođenje (MT): jednostavnije fraze, bez preciznoga prijevoda cijeloga teksta
Primjeri uporabe JT 7: nazivi 1 • identifikacija i kategorizacija naziva u tekstu (named entity recognition) • uvela DARPA kao dio procesa prepoznavanja poruka • natjecateljska disciplina na konferencijama MUC6 (1995) and MUC7 (1998) • 7 vrsta naziva • osoba • organizacija • lokacija • nadnevak • vrijeme • valuta • postotak
Primjeri uporabe JT 8: nazivi 2 • izgleda jednostavno • uporaba popisa imena (morfologija!?) • izvedba • ljudi: 98-99% • najbolji sustavi: 94% • identifikacija naziva • manje problematična • kategorizacija naziva • bitno složenija • potreban uvid u ko-tekstne podatke (npr. “...primanje dr. Pećine u ...”)
Primjeri uporabe JT 9: nazivi 3 • <XML> • <BODY> • <DIV0 type="MAIN"> • <HEAD type="NA">Nagrada zagrebačkim gitaristima</HEAD> • <P><ENAMEX TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX> osvojio je prvu nagradu na <ENAMEX TYPE="ORGANIZATION">Međunarodnome gitarističkom natjecanju Simone Salmaso</ENAMEX> u <ENAMEX TYPE="LOCATION">Viareggiu</ENAMEX> u konkurenciji 14 komornih sastava (u kategoriji D). Prvo mjesto je kao solist osvojio i član toga renomiranoga zagrebačkog sastava <ENAMEX TYPE="PERSON">Darko Pelužan</ENAMEX> u konkurenciji 30 gitarista (u kategoriji C). Članovi <ENAMEX TYPE="ORGANIZATION">Zagrebačkoga gitarističkog kvarteta</ENAMEX> (koji je 1990. osnovao profesor <ENAMEX TYPE="PERSON">Ante Čagalj</ENAMEX>, pretežno od studenata gitare) sada su još <ENAMEX TYPE="PERSON">Mihaela Pažulinec</ENAMEX>, <ENAMEX TYPE="PERSON">Krunoslav Pehar</ENAMEX> i <ENAMEX TYPE="PERSON">Melita Ivković</ENAMEX>. To nije prvi put da <ENAMEX TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX> osvaja prvu nagradu na nekome međunarodnom natjecanju u <ENAMEX TYPE="LOCATION">Italiji</ENAMEX>: pobijedio je i prije dvije godine u <ENAMEX TYPE="LOCATION">Tarantu</ENAMEX> na 6. međunarodnom natjecanju <ENAMEX TYPE="ORGANIZATION">Trofeo Kawai</ENAMEX>.</P> • <BYLINE>(<ENAMEX TYPE="ORGANIZATION">Večernji list</ENAMEX>)</BYLINE> • </DIV0> • </BODY> • </XML>
Situacija s hrvatskim jezikom 1 • podaci na Webu o hrvatskome jeziku raspršeni na različitim adresama • institucionalno i zemljopisno heterogeni • profesionalno ili amatersko — hard to tell • na cijelom Webu ne postoji profesionalna, sustavna, institucionalno podržana polazna stranica (homepage)za hrvatski jezik! • tko? • Institut za hrvatski jezik i jezikoslovlje? • Odsjeci za kroatistiku (FFZG, FFZD, FFRI)? • Ministarstvo znanosti i tehnologije?
Situacija s hrvatskim jezikom 2 • danas: prisutnost nacionalnoga jezika na Internetu = simbol (kao grb, zastava i himna) • prisutnost: • ne samo brojem stranica objavljenih na tom jeziku • nego i: postojanjem on-line dostupnih osnovnih jezičnih resursa i alata za taj jezik: • reprezentativni (nacionalni) i specijalizirani korpusi • opći i specijalizirani rječnici • usluge strojnoga prevođenja (AltaVista sa Systranom) • prisutnost nacionalnog jezika na Webu nemoguća bez razvitka JT za taj jezik • premali smo za rasipanje ljudskih i financijskih resursa
Situacija s JT za hrvatski 1 • jezični resursi • korpusi (Zavod za lingvistiku, FFZG) • Hrvatski nacionalni korpus (www.hnk.ffzg.hr) (MZT 130718) • probna inačica: pretraživo >11 Mw, skupljeno >100 Mw • >30 Mw suvremenoga hrvatskoga do proljeća 2002. • prema 100 Mw do 2004. • Hrvatsko-engleski paralelni korpus • 3,5 Mw prijevoda (HR: 1,6; EN: 1,9) • sravnjeno (aligned) na rečeničnoj razini • Hrvatsko-slovenski paralelni korpus • planiran na 1 Mw prijevoda (HR: 0,5; SI: 0,5)(MZT 130821) • skupljeno oko 0,4 Mw (in statu nascendi) • rječnici / leksikoni / tezaurusi • Hrvatski morfološki leksikon (www.hnk.ffzg.hr/hml) • oko 36.000 natuknica s generiranim svim oblicima i MSD • generirani oblici za 17.000 imenica • EUROVOC • ostali rječnici: malo natuknica, visoko specijalizirani, amaterski?
Situacija s JT za hrvatski 2 • jezični alati • obrada morfologije • generator: Tadić (1994) • nema analizatora ! Boras (1990) • nema označivača/lematizatora (POS tagger) ! Žubrinić (1995) • obrada sintakse • nema prepoznavanja dijelova rečenice ! Boras (1998), Seljan • nema prepoznavanja naziva • nema parsera ! Seljan • semantička obrada • nema tezaurusa općeg jezika ! Bratanić: EUROVOC • nema semantičkih mreža (WordNet) • nema prepoznavanja leksičkog ili rečeničnog značenja • strojno (potpomognuto) prevođenje ! HR-LX paralelni korpusi • strojno (potpomognuto) učenje (!?) • obrada govora • baza difona: Bakran (1998); projekt MBROLA
Situacija s JT za hrvatski 3 • komercijalni proizvodi za hrvatski jezik • pravopisni provjernici (5?) • tezaurus u izradi (za MS-Office) • nema provjernika gramatike i/li stila • nema sustava za prirodnojezično pretraživanje teksta(full-text search) • nema sustava za diktiranje • nema sustava za strojno prevođenje(Word Translator?, NeuroTran?, PalmTran?) • nema sustava za učenje
Portal JTHJ 1 • portal Jezične tehnologije za hrvatski jezik • i-projekt • trajanje: od 2000-11 do 2001-12 • potpora MZT RH pod brojem 00-86 • obveza održavanje podataka: 3 daljnje godine • javni katalog • institucija • projekata • jezičnih resursa i alata • aktivnosti vezanih uz područje (hrvatskih) JT • http://www.hnk.ffzg.hr/jthj • Tadić & Simeon (2001), Building the Croatian Language Technologies Portal, CUC2001 CD
Portal JTHJ 2 • 2 osnovna područja • informativna sastavnica • interaktivna sastavnica • navigacijska traka • struktura svakog popisa • vrh: nabrojci relevantni za hrvatski • sredina: nabrojci relevantni za ostale jezike • dno: stranice sa sličnim poveznicama
Upozorenja 1 • nitko neće riješiti JT za hrvatski osim nas • već kasnimo! • hrvatski će jezik postati funkcionalno nepismen zbog nemogućnosti sudjelovanja u digitalnim komunikacijskim kanalima 21. stoljeća • JT za hrvatski morale bi imati status fundamentalnog istraživanja u humanističkim znanostima!
Upozorenja 2 • JT za hrvatski u Strategiji informatizacije RH moraju se: • shvatiti kao njezin nezaobilazan dio • moraju biti izrijekom navedene i razrađene • !a ne jedna rečenica; Budin (2001:19) • tretirati kao jedan od prioriteta (Česi, Slovenci, Madžari, EU...) • informacijsko društvo neće moći u Hrvatsku ako se za hrvatski ne razviju JT
Pregled 2. predavanja • JT u prevođenju • Korpusna lingvistika i korpusi • Korpusi u terminologiji • Korpusi za prevoditelje • Rječnici i enciklopedije • Leksičke i terminološke baze podataka
Jezične tehnologije u prevođenju • kakvi su jezičnotehnološki resursi/alati na raspolaganju prevoditeljima? • računalo u prevođenju: 2 krajnosti • potpuno automatizirano strojno prevođenje (MT) • računalna pomagala za ljudsko prevođenje (MAT) • pomagala • jezični resursi: korpusi i rječnici • jezični alati za • stvaranje i održavanje glosara / terminoloških baza • pristup udaljenim terminološkim bazama • konkordancije • prijevodne memorije (Translation memories, TM) • ...
Jezične tehnologije u prevođenju 2 • korpusi • jednojezični • višejezični • rječnici • leksičke / terminološke baze • prevoditeljska radna stanica • Translator’s Workstation / Workbench • kombinira sve moguće resurse i alate u jedinstveno okružje
Korpusna lingvistika • jezik • apstraktan sustav znakova • proučavanje jezika moguće jedino posredno • putem jezičnih ostvaraja (= tekstovi) • zbirka tekstova = korpus • metodološki odmak • proučavanjem jezičnih ostvaraja postulira se da se otkrivanjem pravilnosti u korpusu, zapravo otkrivaju pravilnosti u jeziku • usustavljena stvarna jezična građa, a ne znanje jezika imanentno govorniku (= podatkovna orijentacija) • empirija, ne mentalizam
Korpus • korpus (definicija) • skup tekstnih odsječaka odabranih i prikupljenih prema eksplicitnim kriterijima s ciljem da čine jezični uzorak • računalni korpus (definicija) • korpus koji je kodiran na standardan i dosljedan način s nakanom da bude računalno podržan i pretraživan • opseg korpusa (4 žene) • mjeri se u pojavnicama (1 Mw = 1.000.000 pojavnica) • raspon • vremenski raspon između najstarijeg i najmlađeg teksta • uzorkovanje • ne cijela populacija nego reprezentativan uzorak
Tipovi korpusa • raspon • sinkronijski (oko 1-20 god) • dijakronijski (više od 20 god) • broj jezika • jednojezični • višejezični (2, 3, 4,...) • sastav • usporedni (parallel corpora) • tekstovi na 2 ili više jezika (izvornik + prijevod/i) • usporedivi (comparable corpora) • korpusi sastavljeni prema istim parametrima i principima • višejezični ili jednojezični (više idioma)
Rezultati pretrage korpusa 1 • 3 tipa podataka iz korpusa • evidencija (= popis) • frekvencija (= popis s brojanjem) • relacija (= odnos prema drugim jezičnim jedinicama) • popisi fonema/grafema • jednoslovi, dvoslovi, troslovi, ... n-slovi • popisi riječi • abecedni rječnici (unaprijedni ili odostražni) • frekvencijski rječnici (= čestotnici) • popisi kombinacija riječi • kolokacije, idiomi, fraze... • popisi rečeničnih struktura • tree banks • popisi značenja...
Rezultati pretrage korpusa 2 • konkordancije • popisi riječi iz nekoga korpusa s ko-tekstnom okolinom u kojoj su se pojavile • off- / on-line • opseg • djelomične (prema nekom ulaznom uvjetu, npr. bab*) • potpune (puni popis svih riječi nekoga korpusa) • oblici • KWIC (Keyword in context) = najčešći • KWAL (Keyword and line) = rjeđe
KWICkonkordancija stožernica izvor lijeva okolina desna okolina konkordancijski redak
Korpus u terminologiji • prikupljanje termina / izgradnja terminoloških baza • jednorječne jedinice (Single-word units, SWU) • višerječne jedinice (Multi-word units, MWU) (= kolokacije) • metode • leksikonski temeljene (= provjera termina) • problem: morfologija • statističke (= pronalaženje kandidata za termine) • uporaba raznih statističkih mjera supojavljivanja riječi u korpusu • primjer statističke metode uzajamne obavijesnosti (MI) • SSP EN i HR
Korpus za prevoditelje 1 • uvid u porabu gdje rječnici nisu dostatni (kolokacije, fraze, idiomi...) • konkordancije • Web kao korpus (s pomoću tražilica) • !oprez: korpusi nisu normativni priručnici • priprema izvornoga teksta korpusnom metodologijom • obilježavanje termina s unaprijed dogovorenim prijevodnim ekvivalentima • Ugovor iz Maastrichta & EUROVOC • prijedlog MEI
Korpusi za prevoditelje 2 • paralelni korpusi • korpusi sastavljeni od izvornika i prijevoda • prijevodni ekvivalenti • eksplicitno obilježeni • razine • rečenice = češće, automatizirano • riječi = rjeđe, teže • sravnjivanje (alignment) • postupak obilježavanja prijevodnih ekvivalenata • uspostavljanje prijevodnih jedinica (Translation unit, TU)
HR-EN paralelni korpus • sastavljen u Zavodu za lingvistiku FFZG • jednosmjeran usporedni korpus • izvorni jezik: hrvatski • ciljni jezik: engleski • novinski korpus • Croatia Weekly (113 brojeva) • od 1998-01 do 2000-04 • korpusni parametri hr en članaka 4.748 4.748rečenica 74.638 82.898 pojavnica 1.636.246 1.968.874