1 / 22

Uvod u računalnu metodologiju za jezično istraživanje

Uvod u računalnu metodologiju za jezično istraživanje. Heterogenost jezika – žanrovi i domene. Jezik i tekst. JEZIK je OBJEKT proučavanja lingvistike Je li moguće pokazati na neki tekst i proglasiti ga prikladnim za opis jezika?

libby
Download Presentation

Uvod u računalnu metodologiju za jezično istraživanje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uvod u računalnu metodologiju za jezično istraživanje Heterogenost jezika – žanrovi i domene

  2. Jezik i tekst • JEZIK je OBJEKT proučavanja lingvistike • Je li moguće pokazati na neki tekst i proglasiti ga prikladnim za opis jezika? • Koji bi tekst (ili vrsta teksta) bio prototipičan za opis određenog jezika? • Rečenice se istoga jezika značajno razlikuju u različitim žanrovima!

  3. Žanrovi • ŽANROVI: novinski, prozni, znanstveni, SMS, pričaonice (chatrooms)… • Značajna razlika u: strukturi, dužini rečenice, vokabularu i stilu pisanja. Rečenica: Teško je ful biti kul… • pripada žanru pričaonica, ali nikako ne pripada znanstvenom!

  4. Je li ovo engleski jezik? (beletristika)

  5. Je li ovo engleski jezik? (novinski članak)

  6. Je li ovo engleski jezik? (znanstveni članak)

  7. Je li ovo engleski jezik? (Windows help)

  8. Je li ovo engleski jezik? (Wikipedia)

  9. Je li ovo engleski jezik? (Chat room)

  10. Je li ovo engleski jezik? (SMS) • Pogledajte svoje SMS poruke! • C U 4 FIVE DAYS.

  11. SMS jezik • Bira se jezik prilagođen mediju • Jezik SMS poruka značajno odudara od standarda • Jezična ekonomija dolazi do izražaja • Sudionici komunikacije pristaju na povećanu cijenu napora za kodiranje/dekodiranje poruke

  12. Žanrovi – stupanj strukturiranosti ADMINISTRATIVNI NOVINSKI RAZGOVORNI SMS… Kontrolirani jezik ZNANSTVENI PROZNI POEZIJA “Slobodni” jezik visoka struktura niska struktura

  13. Domena • Definirana sadržajem teksta, npr. ekonomija, pravo, medicina, sport … Kuhajte na laganoj vatri 30 minuta. • Pripada domeni recepata, ali ne i domeni prava ili sporta! • Razlike među domenama nisu lingvistički motivirane, više utječu kognitivne granice • Ali domena uvelike utječe na jezik koji se koristi u diskursu!

  14. Kontrolirani jezik - podjezik • Podjezik (sublanguage) – Podskup nekog prirodnog jezika koji je nastao spontano iz semantičkog ograničenja domene • Preduvjet: zajednica govornika koja dijeli specijalizirano znanje o ograničenoj semantičkoj domeni • Evoluira prešutnim konsenzusom stručne zajednice govornika (korisnika)

  15. Jezik kao sredstvo komunikacije • Čovjek: proizvodi varijabilne i teško predvidive strukture • Stroj: u stanju konzistentno obrađivati uniformne jezične strukture • Što je prepreka uspješnom strojnom prevođenju? • Ili barem uspješnoj ekstrakciji “znanja” iz digitaliziranih tekstova

  16. Kontrolirani prirodni jezik (Controlled natural language) • Dio nekog drugog jezika kojemu su s namjerom uvedena ograničenja u terminologiji i gramatici • Kontrolirani prirodni jezik - uvođenjem ograničenja nastoji reducirati višeznačnost koja proizlazi iz prirodnog jezika

  17. Kontrolirani jezik • Ograničenjimana leksičko/semantičkoj i sintaktičkoj razini podiže F-mjeru: • Leksički: popis dopuštenih i nedopuštenih riječi/pojavnica • Sintaktički: pravila propisivanja strukture rečenica (kratke rečenice, prijedložne fraze…) • Semantički: 1.) + ograničenja koja proizlaze iz domene

  18. Postojeći KJ • Najpoznatiji: Simplified English (SE) • Često se pogrešno koristi kao generički naziv za sve kontrolirane jezike • Caterpillar Fundamental English (CFE) – prvi KJ • AECMA Simplified English – European Association of Aerospace Industries • PENG (Processable ENGlish) • ClearTalk … • Danas preko 40!

  19. Zašto proučavati KJ ili podjezik? • Zbog uvedenih ograničenja moguće je obaviti gotovo cjelovit lingvistički opis • Oni su podsustavi (mikrokozmosi) prirodnih jezika • Za računalnu lingvistiku igraju istu ulogu kao i vinske muhe (dorosophila) za proučavanje genetike • Obrada znatno lakša i uspješnija u usporedbi s prirodnim jezikom u cjelini

  20. SE - primjer

  21. Primjena KJ i podjezika danas • Industrija (priručnici) → početak → automatski prijevodi na više jezika • Prijenos obavijesti od vitalnog značaja: kontrola zračnog prometa, policija, hitne službe, … • Organizacija znanja, indeksiranje tekstova, document mangement systems…

  22. Institute for Applied Linguistics – Kent University

More Related