220 likes | 327 Views
Uvod u računalnu metodologiju za jezično istraživanje. Heterogenost jezika – žanrovi i domene. Jezik i tekst. JEZIK je OBJEKT proučavanja lingvistike Je li moguće pokazati na neki tekst i proglasiti ga prikladnim za opis jezika?
E N D
Uvod u računalnu metodologiju za jezično istraživanje Heterogenost jezika – žanrovi i domene
Jezik i tekst • JEZIK je OBJEKT proučavanja lingvistike • Je li moguće pokazati na neki tekst i proglasiti ga prikladnim za opis jezika? • Koji bi tekst (ili vrsta teksta) bio prototipičan za opis određenog jezika? • Rečenice se istoga jezika značajno razlikuju u različitim žanrovima!
Žanrovi • ŽANROVI: novinski, prozni, znanstveni, SMS, pričaonice (chatrooms)… • Značajna razlika u: strukturi, dužini rečenice, vokabularu i stilu pisanja. Rečenica: Teško je ful biti kul… • pripada žanru pričaonica, ali nikako ne pripada znanstvenom!
Je li ovo engleski jezik? (SMS) • Pogledajte svoje SMS poruke! • C U 4 FIVE DAYS.
SMS jezik • Bira se jezik prilagođen mediju • Jezik SMS poruka značajno odudara od standarda • Jezična ekonomija dolazi do izražaja • Sudionici komunikacije pristaju na povećanu cijenu napora za kodiranje/dekodiranje poruke
Žanrovi – stupanj strukturiranosti ADMINISTRATIVNI NOVINSKI RAZGOVORNI SMS… Kontrolirani jezik ZNANSTVENI PROZNI POEZIJA “Slobodni” jezik visoka struktura niska struktura
Domena • Definirana sadržajem teksta, npr. ekonomija, pravo, medicina, sport … Kuhajte na laganoj vatri 30 minuta. • Pripada domeni recepata, ali ne i domeni prava ili sporta! • Razlike među domenama nisu lingvistički motivirane, više utječu kognitivne granice • Ali domena uvelike utječe na jezik koji se koristi u diskursu!
Kontrolirani jezik - podjezik • Podjezik (sublanguage) – Podskup nekog prirodnog jezika koji je nastao spontano iz semantičkog ograničenja domene • Preduvjet: zajednica govornika koja dijeli specijalizirano znanje o ograničenoj semantičkoj domeni • Evoluira prešutnim konsenzusom stručne zajednice govornika (korisnika)
Jezik kao sredstvo komunikacije • Čovjek: proizvodi varijabilne i teško predvidive strukture • Stroj: u stanju konzistentno obrađivati uniformne jezične strukture • Što je prepreka uspješnom strojnom prevođenju? • Ili barem uspješnoj ekstrakciji “znanja” iz digitaliziranih tekstova
Kontrolirani prirodni jezik (Controlled natural language) • Dio nekog drugog jezika kojemu su s namjerom uvedena ograničenja u terminologiji i gramatici • Kontrolirani prirodni jezik - uvođenjem ograničenja nastoji reducirati višeznačnost koja proizlazi iz prirodnog jezika
Kontrolirani jezik • Ograničenjimana leksičko/semantičkoj i sintaktičkoj razini podiže F-mjeru: • Leksički: popis dopuštenih i nedopuštenih riječi/pojavnica • Sintaktički: pravila propisivanja strukture rečenica (kratke rečenice, prijedložne fraze…) • Semantički: 1.) + ograničenja koja proizlaze iz domene
Postojeći KJ • Najpoznatiji: Simplified English (SE) • Često se pogrešno koristi kao generički naziv za sve kontrolirane jezike • Caterpillar Fundamental English (CFE) – prvi KJ • AECMA Simplified English – European Association of Aerospace Industries • PENG (Processable ENGlish) • ClearTalk … • Danas preko 40!
Zašto proučavati KJ ili podjezik? • Zbog uvedenih ograničenja moguće je obaviti gotovo cjelovit lingvistički opis • Oni su podsustavi (mikrokozmosi) prirodnih jezika • Za računalnu lingvistiku igraju istu ulogu kao i vinske muhe (dorosophila) za proučavanje genetike • Obrada znatno lakša i uspješnija u usporedbi s prirodnim jezikom u cjelini
Primjena KJ i podjezika danas • Industrija (priručnici) → početak → automatski prijevodi na više jezika • Prijenos obavijesti od vitalnog značaja: kontrola zračnog prometa, policija, hitne službe, … • Organizacija znanja, indeksiranje tekstova, document mangement systems…