1 / 115

Prevoditelj i ra čunalo

Prevoditelj i ra čunalo. Marko Tadić (marko.tadic@ffzg.hr) Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Poslijediplomski studij prevođenja , Zagreb, 2002-02 i 2002-03. Pregled 1. predavanja. računalna lingvistika jezične tehnologije (JT, HLT ) podjela JT

coty
Download Presentation

Prevoditelj i ra čunalo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Prevoditelj i računalo Marko Tadić(marko.tadic@ffzg.hr) Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Poslijediplomski studij prevođenja, Zagreb, 2002-02 i 2002-03

  2. Pregled 1. predavanja • računalna lingvistika • jezične tehnologije (JT, HLT) • podjela JT • situacija s hrvatskim jezikom • portal JTHJ • perspektive • JT u prevođenju • korpusi • rječnici / leksičke (terminološke) baze • prevoditeljska radna stanica (TWS) • strojno (potpomognuto) prevođenje (M(A)T)

  3. Uvod 1: računalna lingvistika • naziv: lingvistika + računalo = • računalni “tretman” jezika • lingvistika na prvom mjestu • računalo: u mnogim znanostima danas nezaobilazan alat (fizika, (bio-)kemija, ekonomija, promet...) • prikupljanje primarnih podataka (= empirija) • oblikovanje sekundarnih podataka i teorija (= modeliranje) • računalni “tretman” jezika zanimljiv: • lingvistima • informatičarima • interdisciplinarnost

  4. Uvod 2: strojna obradba jezika • naziv 2: računalo + lingvistika = • računalni “tretman” jezika • obrada podataka tj. informatika na prvom mjestu • razlika: • lingvisti: računalna lingvistika • računala u jezičnom opisu (modeli j. pod-sustava) • cilj: što kvalitetniji opis jezičnih činjenica • informatičari: obrada prirodnoga jezika(natural language processing, NLP) • računala u obradi prirodnojezičnih podataka • vrsta strojne obradbe teksta • cilj: što učinkovitije, što brže i sa što manjim utroškom računalnih resursa obraditi (jezične) podatke

  5. Uvod 3: metodologija • je li računalna lingvistika grana lingvistike? • DA i NE! • NE: grana poput fonologije, morfologije, sintakse... • organiziraju se oko definicije predmeta istraživanja(j. jedinice na određenim j. razinama) • pokušavaju opisati/objasniti neki vid jezične porabe • DA: posebna metodologija • primjenljiva na j. jedinice na svim j. razinama • dopušta razliku između računalne i neračunalne: • leksikografije • sintakse... • primjena znanstvenih otkrića u industriji = tehnologija

  6. Jezične tehnologije 1 • tehnologija = “znanost o tehničkim postupcima prerade sirovina u proizvode” (Leksikon LZ) • što je sirovina, a što proizvod u slučaju jezičnih tehnologija? • sirovina: jezik tj. podaci o jeziku • proizvodi: sustavi koji korisniku omogućuju jednostavn(ij)u uporabu prirodnoga jezika u računalnome okružju • podaci o jeziku = temeljni za razvitak jezičnih tehnologija

  7. Jezične tehnologije 2 • definirane u EU Framework Programme 5 (< LI & LE) • najveće pojedinačno istraživačko područje u FP5: • IST = Information Society Technologies(26.3%proračuna FP5 = 3,900 M€) • key action III IST-a: • MC&T = Multimedia Content & Tools (564 M€) • najveći dio MC&T: • HLT = Human Language Technologies = (prirodno)jezične tehnologije • uključuju i obradu govora (Speech processing) • HLTcentral: www.hltcentral.org • nastavak u EU Framework Programme 6: eContent

  8. Podjela JT 1 • jezični resursi • korpusi • rječnici • jezični alati • morfologija • generatori/analizatori • označivači (POS taggers), lematizatori • sintaksa • plitki/duboki/robusni parseri • prepoznavanje dijelova rečenice (imenične fraze...) • prepoznavanje naziva (named entity recognition...) • semantika • detektiranje leksičkoga značenja (sinonimija/antonimija...) • detektiranje rečeničnoga značenja (agens, pacijens...) • strojno (potpomognuto) prevođenje: M(A)T (CMU & US Army) • strojno (potpomognuto) učenje jezika: CALL

  9. Podjela JT 2 • komercijalni proizvodi • provjernici (checkers) • pravopisa • gramatike • stila • rječnici (on-/off-line) • tezaurusi / pojmovnici • leksičke baze (opći i specijalizirani rječnici) • automatsko indeksiranje i sažimanje dokumenata • text-to-speech i speech-to-text sustavi, npr. • strojevi za diktiranje • sustavi za strojno (potpomognuto) prevođenje • prijevodne memorije (= paralelni korpusi) • ograničeno strojno prevođenje (kontrolirani jezici) • grubo strojno prevođenje (tekst za osnovne informacije) • sustavi za strojno (potpomognuto) učenje jezika

  10. Razvitak JT za pojedini jezik 1 • resursi i alati • specifični za svaki jezik • razvoj JT počinje iz temeljaca za svaki pojedini jezik • resursi • priskrbljuju temeljne jezične podatke (evidenciju, statistiku i relaciju) za: • razvoj drugih jezičnih resursa • razvoj jezičnih alata • razvitak JT • planiran • potpomognut (industrija, država...)

  11. RazvitakJT zapojedinijezik 2 Petek (2000:107)

  12. Primjer uporabe JT 1 • danas: ubrzano stvaranje e-teksta • prebacivanje postojećih tekstova u e-tekst • stvaranje novih dokumenata jedino kao e-tekst • razlika klasični tekst <> e-tekst: • medij: papir è elektroni • čitanje/pohrana teksta: linearno ènelinearno (prema potrebi) • što se nije promijenilo? • uporaba prirodnoga jezika kojim se tekst stvara tj. kojim se kodiraju podaci • većina znanja = još uvijek pohranjena i kao tekst na nekom prirodnom jeziku

  13. Primjer uporabe JT 2 • procjena broja riječi po jezicima dohvatljivog Altavistom 2000-02(izvor: Greg Grefenstette, XRCE,2000-09) • potrebna je ekstrakcija podataka iz teksta

  14. Primjer uporabe JT 3 • može li pretraživanje dokumenata biti “svjesno” prirodnoga jezika tih dokumenata • web-tražilice (npr.) = prilagođene za engleski • što s drugim jezicima s različitim strukturama? • može li lingvistika nekako pomoći u “izvlačenju” podataka (znanja) iz teksta? • document retrieval meets human language technologies...

  15. Primjer uporabe JT 4: morfologija • upit “osjetljiv” na oblike riječi

  16. Primjer uporabe JT 5: semantika • upit “osjetljiv” na značenje riječi • uporaba semantičkih mreža • WordNet • EuroWordNet 1 i 2

  17. Primjer uporabe JT 6: višejezičnost • višejezično pretraživanje • grubo strojno prevođenje (MT): jednostavnije fraze, bez preciznoga prijevoda cijeloga teksta

  18. Primjeri uporabe JT 7: nazivi 1 • identifikacija i kategorizacija naziva u tekstu (named entity recognition) • uvela DARPA kao dio procesa prepoznavanja poruka • natjecateljska disciplina na konferencijama MUC6 (1995) and MUC7 (1998) • 7 vrsta naziva • osoba • organizacija • lokacija • nadnevak • vrijeme • valuta • postotak

  19. Primjeri uporabe JT 8: nazivi 2 • izgleda jednostavno • uporaba popisa imena (morfologija!?) • izvedba • ljudi: 98-99% • najbolji sustavi: 94% • identifikacija naziva • manje problematična • kategorizacija naziva • bitno složenija • potreban uvid u ko-tekstne podatke (npr. “...primanje dr. Pećine u ...”)

  20. Primjeri uporabe JT 9: nazivi 3 • <XML> • <BODY> • <DIV0 type="MAIN"> • <HEAD type="NA">Nagrada zagrebačkim gitaristima</HEAD> • <P><ENAMEX TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX> osvojio je prvu nagradu na <ENAMEX TYPE="ORGANIZATION">Međunarodnome gitarističkom natjecanju Simone Salmaso</ENAMEX> u <ENAMEX TYPE="LOCATION">Viareggiu</ENAMEX> u konkurenciji 14 komornih sastava (u kategoriji D). Prvo mjesto je kao solist osvojio i član toga renomiranoga zagrebačkog sastava <ENAMEX TYPE="PERSON">Darko Pelužan</ENAMEX> u konkurenciji 30 gitarista (u kategoriji C). Članovi <ENAMEX TYPE="ORGANIZATION">Zagrebačkoga gitarističkog kvarteta</ENAMEX> (koji je 1990. osnovao profesor <ENAMEX TYPE="PERSON">Ante Čagalj</ENAMEX>, pretežno od studenata gitare) sada su još <ENAMEX TYPE="PERSON">Mihaela Pažulinec</ENAMEX>, <ENAMEX TYPE="PERSON">Krunoslav Pehar</ENAMEX> i <ENAMEX TYPE="PERSON">Melita Ivković</ENAMEX>. To nije prvi put da <ENAMEX TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX> osvaja prvu nagradu na nekome međunarodnom natjecanju u <ENAMEX TYPE="LOCATION">Italiji</ENAMEX>: pobijedio je i prije dvije godine u <ENAMEX TYPE="LOCATION">Tarantu</ENAMEX> na 6. međunarodnom natjecanju <ENAMEX TYPE="ORGANIZATION">Trofeo Kawai</ENAMEX>.</P> • <BYLINE>(<ENAMEX TYPE="ORGANIZATION">Večernji list</ENAMEX>)</BYLINE> • </DIV0> • </BODY> • </XML>

  21. Situacija s hrvatskim jezikom 1 • podaci na Webu o hrvatskome jeziku raspršeni na različitim adresama • institucionalno i zemljopisno heterogeni • profesionalno ili amatersko — hard to tell • na cijelom Webu ne postoji profesionalna, sustavna, institucionalno podržana polazna stranica (homepage)za hrvatski jezik! • tko? • Institut za hrvatski jezik i jezikoslovlje? • Odsjeci za kroatistiku (FFZG, FFZD, FFRI)? • Ministarstvo znanosti i tehnologije?

  22. Situacija s hrvatskim jezikom 2 • danas: prisutnost nacionalnoga jezika na Internetu = simbol (kao grb, zastava i himna) • prisutnost: • ne samo brojem stranica objavljenih na tom jeziku • nego i: postojanjem on-line dostupnih osnovnih jezičnih resursa i alata za taj jezik: • reprezentativni (nacionalni) i specijalizirani korpusi • opći i specijalizirani rječnici • usluge strojnoga prevođenja (AltaVista sa Systranom) • prisutnost nacionalnog jezika na Webu nemoguća bez razvitka JT za taj jezik • premali smo za rasipanje ljudskih i financijskih resursa

  23. Situacija s JT za hrvatski 1 • jezični resursi • korpusi (Zavod za lingvistiku, FFZG) • Hrvatski nacionalni korpus (www.hnk.ffzg.hr) (MZT 130718) • probna inačica: pretraživo >11 Mw, skupljeno >100 Mw • >30 Mw suvremenoga hrvatskoga do proljeća 2002. • prema 100 Mw do 2004. • Hrvatsko-engleski paralelni korpus • 3,5 Mw prijevoda (HR: 1,6; EN: 1,9) • sravnjeno (aligned) na rečeničnoj razini • Hrvatsko-slovenski paralelni korpus • planiran na 1 Mw prijevoda (HR: 0,5; SI: 0,5)(MZT 130821) • skupljeno oko 0,4 Mw (in statu nascendi) • rječnici / leksikoni / tezaurusi • Hrvatski morfološki leksikon (www.hnk.ffzg.hr/hml) • oko 36.000 natuknica s generiranim svim oblicima i MSD • generirani oblici za 17.000 imenica • EUROVOC • ostali rječnici: malo natuknica, visoko specijalizirani, amaterski?

  24. Situacija s JT za hrvatski 2 • jezični alati • obrada morfologije • generator: Tadić (1994) • nema analizatora ! Boras (1990) • nema označivača/lematizatora (POS tagger) ! Žubrinić (1995) • obrada sintakse • nema prepoznavanja dijelova rečenice ! Boras (1998), Seljan • nema prepoznavanja naziva • nema parsera ! Seljan • semantička obrada • nema tezaurusa općeg jezika ! Bratanić: EUROVOC • nema semantičkih mreža (WordNet) • nema prepoznavanja leksičkog ili rečeničnog značenja • strojno (potpomognuto) prevođenje ! HR-LX paralelni korpusi • strojno (potpomognuto) učenje (!?) • obrada govora • baza difona: Bakran (1998); projekt MBROLA

  25. Situacija s JT za hrvatski 3 • komercijalni proizvodi za hrvatski jezik • pravopisni provjernici (5?) • tezaurus u izradi (za MS-Office) • nema provjernika gramatike i/li stila • nema sustava za prirodnojezično pretraživanje teksta(full-text search) • nema sustava za diktiranje • nema sustava za strojno prevođenje(Word Translator?, NeuroTran?, PalmTran?) • nema sustava za učenje

  26. Portal JTHJ 1 • portal Jezične tehnologije za hrvatski jezik • i-projekt • trajanje: od 2000-11 do 2001-12 • potpora MZT RH pod brojem 00-86 • obveza održavanje podataka: 3 daljnje godine • javni katalog • institucija • projekata • jezičnih resursa i alata • aktivnosti vezanih uz područje (hrvatskih) JT • http://www.hnk.ffzg.hr/jthj • Tadić & Simeon (2001), Building the Croatian Language Technologies Portal, CUC2001 CD

  27. Portaj JTHJ 2

  28. Portal JTHJ 2 • 2 osnovna područja • informativna sastavnica • interaktivna sastavnica • navigacijska traka • struktura svakog popisa • vrh: nabrojci relevantni za hrvatski • sredina: nabrojci relevantni za ostale jezike • dno: stranice sa sličnim poveznicama

  29. Portal JTHJ 3

  30. Upozorenja 1 • nitko neće riješiti JT za hrvatski osim nas • već kasnimo! • hrvatski će jezik postati funkcionalno nepismen zbog nemogućnosti sudjelovanja u digitalnim komunikacijskim kanalima 21. stoljeća • JT za hrvatski morale bi imati status fundamentalnog istraživanja u humanističkim znanostima!

  31. Upozorenja 2 • JT za hrvatski u Strategiji informatizacije RH moraju se: • shvatiti kao njezin nezaobilazan dio • moraju biti izrijekom navedene i razrađene • !a ne jedna rečenica; Budin (2001:19) • tretirati kao jedan od prioriteta (Česi, Slovenci, Madžari, EU...) • informacijsko društvo neće moći u Hrvatsku ako se za hrvatski ne razviju JT

  32. Pregled 2. predavanja • JT u prevođenju • Korpusna lingvistika i korpusi • Korpusi u terminologiji • Korpusi za prevoditelje • Rječnici i enciklopedije • Leksičke i terminološke baze podataka

  33. Jezične tehnologije u prevođenju • kakvi su jezičnotehnološki resursi/alati na raspolaganju prevoditeljima? • računalo u prevođenju: 2 krajnosti • potpuno automatizirano strojno prevođenje (MT) • računalna pomagala za ljudsko prevođenje (MAT) • pomagala • jezični resursi: korpusi i rječnici • jezični alati za • stvaranje i održavanje glosara / terminoloških baza • pristup udaljenim terminološkim bazama • konkordancije • prijevodne memorije (Translation memories, TM) • ...

  34. Jezične tehnologije u prevođenju 2 • korpusi • jednojezični • višejezični • rječnici • leksičke / terminološke baze • prevoditeljska radna stanica • Translator’s Workstation / Workbench • kombinira sve moguće resurse i alate u jedinstveno okružje

  35. Korpusna lingvistika • jezik • apstraktan sustav znakova • proučavanje jezika moguće jedino posredno • putem jezičnih ostvaraja (= tekstovi) • zbirka tekstova = korpus • metodološki odmak • proučavanjem jezičnih ostvaraja postulira se da se otkrivanjem pravilnosti u korpusu, zapravo otkrivaju pravilnosti u jeziku • usustavljena stvarna jezična građa, a ne znanje jezika imanentno govorniku (= podatkovna orijentacija) • empirija, ne mentalizam

  36. Korpus • korpus (definicija) • skup tekstnih odsječaka odabranih i prikupljenih prema eksplicitnim kriterijima s ciljem da čine jezični uzorak • računalni korpus (definicija) • korpus koji je kodiran na standardan i dosljedan način s nakanom da bude računalno podržan i pretraživan • opseg korpusa (4 žene) • mjeri se u pojavnicama (1 Mw = 1.000.000 pojavnica) • raspon • vremenski raspon između najstarijeg i najmlađeg teksta • uzorkovanje • ne cijela populacija nego reprezentativan uzorak

  37. Tipovi korpusa • raspon • sinkronijski (oko 1-20 god) • dijakronijski (više od 20 god) • broj jezika • jednojezični • višejezični (2, 3, 4,...) • sastav • usporedni (parallel corpora) • tekstovi na 2 ili više jezika (izvornik + prijevod/i) • usporedivi (comparable corpora) • korpusi sastavljeni prema istim parametrima i principima • višejezični ili jednojezični (više idioma)

  38. Rezultati pretrage korpusa 1 • 3 tipa podataka iz korpusa • evidencija (= popis) • frekvencija (= popis s brojanjem) • relacija (= odnos prema drugim jezičnim jedinicama) • popisi fonema/grafema • jednoslovi, dvoslovi, troslovi, ... n-slovi • popisi riječi • abecedni rječnici (unaprijedni ili odostražni) • frekvencijski rječnici (= čestotnici) • popisi kombinacija riječi • kolokacije, idiomi, fraze... • popisi rečeničnih struktura • tree banks • popisi značenja...

  39. Rezultati pretrage korpusa 2 • konkordancije • popisi riječi iz nekoga korpusa s ko-tekstnom okolinom u kojoj su se pojavile • off- / on-line • opseg • djelomične (prema nekom ulaznom uvjetu, npr. bab*) • potpune (puni popis svih riječi nekoga korpusa) • oblici • KWIC (Keyword in context) = najčešći • KWAL (Keyword and line) = rjeđe

  40. KWICkonkordancija stožernica izvor lijeva okolina desna okolina konkordancijski redak

  41. Korpus u terminologiji • prikupljanje termina / izgradnja terminoloških baza • jednorječne jedinice (Single-word units, SWU) • višerječne jedinice (Multi-word units, MWU) (= kolokacije) • metode • leksikonski temeljene (= provjera termina) • problem: morfologija • statističke (= pronalaženje kandidata za termine) • uporaba raznih statističkih mjera supojavljivanja riječi u korpusu • primjer statističke metode uzajamne obavijesnosti (MI) • SSP EN i HR

  42. Korpus za prevoditelje 1 • uvid u porabu gdje rječnici nisu dostatni (kolokacije, fraze, idiomi...) • konkordancije • Web kao korpus (s pomoću tražilica) • !oprez: korpusi nisu normativni priručnici • priprema izvornoga teksta korpusnom metodologijom • obilježavanje termina s unaprijed dogovorenim prijevodnim ekvivalentima • Ugovor iz Maastrichta & EUROVOC • prijedlog MEI

  43. Korpusi za prevoditelje 2 • paralelni korpusi • korpusi sastavljeni od izvornika i prijevoda • prijevodni ekvivalenti • eksplicitno obilježeni • razine • rečenice = češće, automatizirano • riječi = rjeđe, teže • sravnjivanje (alignment) • postupak obilježavanja prijevodnih ekvivalenata • uspostavljanje prijevodnih jedinica (Translation unit, TU)

  44. HR-EN paralelni korpus • sastavljen u Zavodu za lingvistiku FFZG • jednosmjeran usporedni korpus • izvorni jezik: hrvatski • ciljni jezik: engleski • novinski korpus • Croatia Weekly (113 brojeva) • od 1998-01 do 2000-04 • korpusni parametri hr en članaka 4.748 4.748rečenica 74.638 82.898 pojavnica 1.636.246 1.968.874

More Related