1 / 36

Nyelvtechnológia Ladányi Enikő

Nyelvtechnológia Ladányi Enikő. Látás, n ye l v , emlékezet BSc kurzus. Mire jó a nyelvtechnológia?. Szöveg-felolvasó rendszerek (text-to-speech) Beszédfelismerés Gépi fordítás Gépi összegzés, szövegkivonatolás Kérdés-válaszoló rendszerek.

axl
Download Presentation

Nyelvtechnológia Ladányi Enikő

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. NyelvtechnológiaLadányi Enikő Látás, nyelv,emlékezet BSc kurzus

  2. Mire jó a nyelvtechnológia? • Szöveg-felolvasó rendszerek (text-to-speech) • Beszédfelismerés • Gépi fordítás • Gépi összegzés, szövegkivonatolás • Kérdés-válaszoló rendszerek

  3. Alan Turing, 1950: a Turing teszt (gondolatkísérlet) Akkor megy át egy gép a próbán, ha a középen lévő ember nem tudja eldönteni, géptől vagy embertől jött-e a válasz? Mesterséges intelligencia Ellenőrző gondolatkísérlet: nyelvi

  4. A Kínai Szoba • John Searle, 1980 • Hogyan tudom eldönteni, hogy egy igazi kínai van a másik szobában, vagy egy gép?

  5. A nyelvtechnológia részfeladatai • Generálás • Beszédszintézis Beszédfelismerés Parsing (elemzés) Szemantikai elemzés

  6. Nyelvtechnológia ma: Két alapelv • Szabályalapú • Példaalapú statisztikai • korpuszok • Két egymással ellentétes cél: • Lefedettség növelése (hamis negatívok csökkentése) -- lazítás • Pontosság növelése (hamis pozitívok csökkentése) -- szigorítás

  7. Nemtom NEM TUDOM BeszédfelismerésHangsorokból szavak

  8. BeszédgondokBayesi beszédfelismerés Nehéz feladat a hanginger zajossága miatt Ha adott egy „h” hangsor, mi a valószínűsége egy „s” szónak? → P(s|h)

  9. A bayesi beszédfelismeréshez szükséges tárak • Variáció-korpusz: hangsorokhoz rendelt szólisták (szem -> szem, eszem, azt hiszem…) – s szavak • Korpusz: szógyakoriság P(s) • Fonotaktikai folyamatok valószínűségei (pl. szóközi szótag lehagyása) – P(h|s)

  10. P(s|h) = P(h|s)P(s) P(szem|szem) = P(szem|szem)P(szem) P(eszem|szem) = P(szem|eszem)P(eszem) P(azthiszem|szem) = P(szem|azthiszem)P(azthiszem)

  11. A környezet figyelembevétele • N-gram modellek • P(eszem|villával)=P(villával eszem)/P(villával) P(s|h) = P(h|s)P(s) -> P(s|h) = P(h|s)P(s|s-1)

  12. Bigram nyelvtan

  13. alak<NOUN[ÍT]VERB<PAST> <PLUR><DEF>> ALAKÍTOTTÁK ParsingSzófaji és morfológiai elemzés

  14. Elemző komponensei • Szófaj meghatározása + morfológiai összetétel elemzése • Szótár • Szótövek listája • Szófaji kategóriájuk (főnév, ige, határozószó, stb) • Morfofonológiai kategóriájuk • Sziszegő végű: olvas • Alternatív töveik (pl.: bokor, bokr) -> ELEMZÉS CSAK SZÓTÁRRAL?

  15. Elemző komponensei • Szabályok • Toldalékok listája • Milyen szófajhoz milyen morfológiai jegy tartozhat • Morfofonológiai kategóriák: • Sziszegő végű: olvas, olvasOL, *olvasSZ • Egyéb: fél, félSZ • Morfotaktika: affixumok sorrendje • Kenyer-em-et, *kenyer-et-em • Szeletem: szelet-em és nem *szel-et-em

  16. Az elemzés feladatai Szóalakok felcímkézése a szótár és nyelvtan szabályai alapján → egy egyértelmű eredmény → több lehetséges elemzés → nem található a szótárban

  17. alakalak<NOUN> • alakult1alak<NOUN[UL]VERB<PAST>> • alakult2 alak<NOUN[UL]VERB[PAST_PART]ADJ> • alakították alak<NOUN[ÍT] VERB<PAST><PLUR><DEF>> • alakítsunk alak<NOUN[ÍT] VERB<SUBJUNC-IMP><PERS<1>><PLUR>>

  18. Többértelműség feloldása Szövegkörnyezet segítségével A tűz felmelegítette az átfagyott túrázókat tűz <NOUN> tűz <VERB> A tűz → tűz <NOUN>

  19. Ha a szótárban nem szerepel egy szó... Többértelmű címkézés+egyértelműsítés szövegkörnyezet alapján egyenletes elosztásban (minden címke) címke-gyakoriság szerint (bizonyos gyakorisági küszöb fölött) Morfológiai szerkezet alapján RoxfortbanSzémisenrottolnak a makánokaleghöntebbmufjotukban. 95 – 98% teljesítmény(a címketár méretétől függően) Megfelel az ember teljesítményének! Ismeretlen szavak

  20. [ADet kutyaNoun ] NP [kergetteVerbPast [aDet macskátNounAcc]NP]VP ADet kutyaNounNom kergetteVerbPast aDet macskátNounAcc ParsingMondat szerkezeti elemzése

  21. Mondatelemzés • Elemzés célja: a szavak közötti szintaktikai/szemantikai viszonyok feltárása • Dependencia nyelvtanok • Frázis-struktúra nyelvtanok

  22. Környezet-független nyelvtan • Mondat  Határozói_fr Igei_fr • Határozói_fr  Határozószó • Igei_fr  Ige Főnévi_fr • Főnévi_fr  Főnévi_fr Főnévi_fr • Főnévi_fr  Névelő (Melléknévi_fr) Főnév • Főnévi_fr  Névelő Főnév • Melléknévi_fr  Melléknév • Határozószó  tegnap • Ige  láttam • Névelő  a • Melléknév  fiatal • Főnév  rendőrt, távcsővel • ...

  23. + Morfológiai megkötések • *Tegnap láttalak a rendőrt a távcsővel • *Tegnap látom a rendőrt a távcsővel. • *Tegnap láttam a rendőrhöz a távcsőnek • + Szabadabb szórend • Láttam tegnap a rendőrt a távcsővel. • A rendőrt tegnap láttam a távcsővel. • A távcsővel a rendőrt tegnap láttam.

  24. ∃x,y Birtokol(x)∧Birtokló(Beszélő,x)∧ BirtokolValamit(y,x)∧Autó(y) Van egy autóm SzemantikaA jelentés meghatározása

  25. Információk kivonása • „Mondjon nekem reggeli járatokat kedden Bostonból San Franciscoba.” MUTAT: JÁRAT: EREDET: VÁROS: Boston DÁTUM: kedd IDŐ: reggel CÉL: VÁROS: SF

  26. LISTÁZ -> mondjon nekem | szeretnék | mutatna|… INDULÁSIIDŐ -> ÓRA (előtt|körül|után) | reggel | délután | este ÓRA -> egy|két|három…|huszonnégy JÁRAT -> (egy) járat|járatok EREDET -> VÁROS-EREDET_HELYRAG CÉL -> VÁROS-CÉL_HELYRAG VÁROS -> Boston | San Francisco | Budapest

  27. Mondat tematikai elemzése Frázisok → Tematikus szerepek a morfoszintaktikai struktúra alapján A kutya tegnap a házig kergette a macskát. Alany → Ágens Tárgy → Páciens Helyragos NP/PP/helyhatározó → Cél Időhatározó/PP/ragozott NP → Idő

  28. Gépi fordítás • Szabályalapú rendszerek • morfoszintaktikai és szemantikai elemzés • nyelv-független általánosítás • szöveg generálása a célnyelven • Statisztikai rendszerek • Parallel korpuszok • A kettő kombinációja

  29. Webforditas.hu • Az olvasónak mindenesetre jó találgatást és kevés tévedést kívánnak a szerkesztők. • The editors wish the reader a good guessing and few mistakes whatever. • A szerkesztők kívánnak az olvasó egy jó találgató és kevés hiba bármi.

  30. Szövegkivonatolás • Kivonatolás • Szavak, szókapcsolatok, mondatok kiválasztása a szövegen belüli gyakoriság és pozíció és az általános gyakoriság alapján • Absztraktkészítés • Jelentésreprezentáció a szövegről, és ez alapján generál összefoglalót

  31. Kérdés válaszoló rendszerek Zárt vs. nyitott rendszerek BASEBALL, LUNAR (földtani adatok) Rendszerezett adatbázisok alapján Nem rendszerezett dokumentumhalmaz alapján Wolfram Alpha

  32. Chatterbot-ok ELIZA A.L.I.C.E. – többszörös Loebner díjas Jabberwacky Kyle Mitsuku

  33. Eliza: „pszichoterapeuta”Weisenbaum 1966 • A férfiak mind egyformák. • Ezt hogy érted? • Mindig nyaggatnak minket valamiért. • Mondanál egy konkrét példát? • Hát, a fiúm küldött ide. • A fiúd küldött ide. • Azt mondja, mindig depressziós vagyok. • Sajnálom, hogy depressziós vagy. • Talán ki kellene békülnöm az anyámmal. • Mesélj még a családodról.

  34. A módszer: • Kulcsszókeresés • mindig • anyám • Kulcsszó aktivál egy szabályt • Mondanál egy konkrét példát? • Mesélj még a családodról. • Reguláris kifejezések segítségével behelyettesítés a szabálynak megfelelően • fiúm -> fiúd

More Related