1 / 22

Jezikovne tehnologije Uvodni pregled in prelet

Jezikovne tehnologije Uvodni pregled in prelet. doc.dr. Špela Vintar Oddelek za prevajalstvo Filozofska fakulteta, Univerza v Ljubljani 200 5 /200 6 spela.vintar@guest.arnes.si. Še n ekaj aplikacij. Eliza Sinteza govora … ali petja Odgovarjanje na vpra šanja Klepec. Pregled tem.

lavada
Download Presentation

Jezikovne tehnologije Uvodni pregled in prelet

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jezikovne tehnologijeUvodni pregled in prelet doc.dr. Špela Vintar Oddelek za prevajalstvo Filozofska fakulteta, Univerza v Ljubljani 2005/2006 spela.vintar@guest.arnes.si

  2. Še nekaj aplikacij • Eliza • Sinteza govora… ali petja • Odgovarjanje na vprašanja • Klepec

  3. Pregled tem • Uvod v jezikovne tehnologije • Kako računalnik razume jezik • Jezikovni viri na internetu • Pregled slovarjev, korpusov in terminoloških virov na internetu • Korpusi • Osnove korpusnega jezikoslovja • Korpusi na internetu • Napredno iskanje in regularni izrazi • Označevanje korpusov • oblikoslovno označevanje in ostale ravni • standardi: eXtensible Markup Language (XML) • zapisi znakov in pretvorbe med njimi

  4. Pregled tem II • Korpusna leksikografija • Kako s pomočjo korpusa nastane slovar? Gost: Simon Krek • Korpusna terminologija • Gradnja specializiranih korpusov in njihova izraba za terminografske namene • Govorne tehnologije • Razpoznavanje govora, tvorjenje govora in aplikacije. Gost: Jerneja Žganec Gros • Skladnja • Modeli za skladenjsko analizo jezika • Orodja in aplikacije • Projektne predstavitve

  5. Organizacijske reči • Projektna / seminarska naloga • Izpit • “Kolobarjenje” predavateljev: doc. dr. Tomaž Erjavec (IJS) tomaz.erjavec@ijs.si doc. dr. Špela Vintar (FF UL) spela.vintar@guest.arnes.si mag. Irena Srdanović irena_srdanovic@hotmail.com + gosti • Konzultacije in govorilne ure: • petek 13.00-13.30, po potrebi po vajah, po dogovoru • Spletna stran:http://lojze.lugos.si/jt

  6. Računalniška obdelava naravnega jezika • NLP = Natural Language Processing • računalniško jezikoslovje (Computational Linguistics) • veja računalništva in informatike, ki se navezuje na jezikoslovje • cilj: modeliranje naravnega jezika za različne računalniške aplikacije (črkovalniki, prevajalniki, lematizatorji itd.) • jezikovne tehnologije (Language Technologies) • razvoj konkretnih jezikovnih virov, orodij in programov

  7. Jezik in računalnik • Kako računalnik “razume” jezik? • Jezikovne komponente v urejevalniku besedil:črkovalnik, preverjanje slovnice, pravila za segmentacijo besed, stavkov • Kaj je beseda, kaj je stavek? • vsi podatki so za računalnik najprej nizi znakov (strings) • besede so med seboj ločene s presledki • besede so med seboj ločene s presledki ali ločili • besede so med seboj ločene s presledkom ali ločilom in presledkom • javno- in zasebnopravni vidiki, itd., $4.000.000

  8. Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov

  9. Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov

  10. Iskanje z Googlom avtomobilsko podjetje 573 avtomobilska podjetja 835 avtomobilska firma 43 avtomobilske firme 107 avtopodjetje 4 zastopnik avtomobilov 807 prodajalec avtomobilov 407 avtoprodaja 507 zastopstvo avtomobilov 405

  11. Oblika vs. pomen • Kako bi bilo mogoče zgraditi “pametni” spletni iskalnik, ki bi iskal po pomenu besede? zdravljenje anoreksije anoreksija anoreksije anoreksičnost motnje hranjenja prehranjevalne motnje odklanjanje hrane ... zdravljenje zdravljenja zdravljenju terapija terapevtski ukrepi terapije ...

  12. Problemi • Jezik ima lastnosti, ki jih človek razpozna zlahka, stroj pa mnogo težje. • Še posebej: • Večpomenskost: mnoge besede imajo več pomenov • Parafraze: mnoge vsebine je mogoče izraziti na več načinov • Nedoločenost: mnoga jezikovna sredstva imajo nedoločen pomen, ki ga razberemo šele iz sobesedila

  13. Time flies like an arrow.

  14. Razsežnosti problema Razpoznavanje besed Oblikoslovje Skladnja Globina analize Pomenoslovje Pragmatika Obdelava znanja Področje Obseg jezikovnih podatkov Mnoge aplikacije zahtevajo le nizko raven analize.

  15. Strukturalistični in empirični vidiki jezikoslovja • Strukturalistični pristop: • Jezik je omejen in urejen sistem, ki temelji na pravilih. • Avtomatska obdelava jezika je mogoča s pomočjo pravil. • Pravila se oblikuje v skladu s človeško jezikovno intuicijo. • Empirični pristop: • Jezik je vsota vseh svojih udejanjanj (v govorjenih in pisnih besedilih) • Posplošitve o jeziku so mogoče le na podlagi velikih besedilnih zbirk, ki nam služijo za vzorec jezika -> korpusi • Strojno učenje (Machine Learning): • “data-driven automatic inference of rules”

  16. Jezikovne tehnologije:Raziskovalna področja • Oblikoslovje: besednovrstno označevanje (part-of-speech tagging), lematizacija, razčlemba sestavljenih besed • Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij (osebek/povedek/...); popolna skladenjska analiza • Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni sistemi • Pomenoslovje: razreševanje večpomenskosti, avtomatska izdelava semantičnih virov (tezavrov, ontologij) • Večjezikovne tehnologije: luščenje prevodnih ustreznic iz korpusov, strojno prevajanje in tolmačenje • Jezik in internet: iskanje podatkov, rudarjenje besedil (Text Mining), napredni spletni iskalniki

  17. Jezikovne tehnologije:Aplikacije • korpusna orodja • konkordančniki in orodja za statistično obdelavo korpusov • orodja za izdelavo vzporednih korpusov (poravnava besedil) • orodja za označevanje korpusov • prevajalska orodja • terminološki programi, programi s pomnilnikom prevodov, strojni prevajalniki • govorne aplikacije • mobilna telefonija • odgovarjanje na vprašanja (Question Answering) • samopovzemanje dokumentov • rudarjenje podatkov, rudarjenje besedil

  18. Dodatni viri • Language Technology World [http://www.lt-world.org/ie_index.html] • Interactive Online CL Demos[http://www.ifi.unizh.ch/CL/InteractiveTools.html] • Natural Language Processing – course materials[http://www.cs.cornell.edu/Courses/cs674/2003sp/]

More Related