240 likes | 379 Views
MI 2003/13 - 1. Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből a cégek egyesítéséről szólókat? - Hogyan kezdenénk egy (magyarul kimondott) számokat felismerő program fejlesztéséhez?. MI 2003/13 - 2.
E N D
MI 2003/13 - 1 • Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből a cégek egyesítéséről szólókat? - Hogyan kezdenénk egy (magyarul kimondott) számokat felismerő program fejlesztéséhez?
MI 2003/13 - 2 Két nagyobb terület • Természetes-nyelv feldolgozás, folyamatban levő projektek • Beszédfeldolgozás, folyamatban levő projektek
MI 2003/13 - 3 • Nyelvfeldogozás: - Nagyon sok elektronikusan hozzáférhető szöveg (például a MEK, a Magyar Nemzeti Szövegtár), sokféle formátum. - Első lépés: szegmentálás (eredmény: tagolt szöveg, mondatok, szavak, tokenek). Legfontosabb problémák.
MI 2003/13 - 4 • Morfo-szintaktikai elemzés (morfológia-alaktan). Lexikon. A magyar agglutináló (toldalékoló) nyelv, amelyben a szótőhöz képzőket, ragokat illeszthetünk (az angolban szinte nincsenek ragok). Feladat: szótövek+illesztések meghatározása. Különböző kódrendszerek, általában fix pozíciókkal (MSD - ablak: Ncsn főnév, köznév, egyes szám, alanyeset). 1984.
MI 2003/13 - 5 • Egyértelműsítés: az előző címkézési eljárás nem egyértelmű - szótár, toldalékok. Szeged korpusznál (1 millió szó) 52% többértelmű. Hogyan válasszuk ki a megfelelő jelentést? Kézzel, pontosan elemzett minta + tanuló eljárások. Bayes döntés, Markov láncok, szabályok alkalmazása. Legjobb eredmények: 3-4 % hiba marad.
MI 2003/13 - 6 • Más nyelveknél is szükség van erre az előfeldolgozásra, például angolban a Brown korpusz (1961) az első elkészült nagy anyag. • A szövegben további jelek kellenek - speciális formátumok: XML (Extensible Markup Language, 1998), SGML (Standard Generalized …) a leggyakoribb standard fogalmak. HTML.
MI 2003/13 - 7 • Szintaxis (mondattan). Kezdés: főnévi szerkezetek kijelölése (NP, noun phrase). Pl. egy nagy piros ház (főnév + balról jelzős szerkezet és determináns). • Névszói szerkezetek. Melléknevek, számnevek, névmások. • Igei vonzáskeretek (magyar igéknek 0, 1, 2, 3, 4 bővítménye lehet).
MI 2003/13 - 8 • Teljes szintaktikus elemzés. Mondatfa. mondat(Láttam tárgy(fn-csoport(egyigei-csop(tárgy(fn-csoport(hordó tokaji)t) hordó tokaji)t). • Általában szabályokat keresünk, azokat próbáljuk alkalmazni morfológiailag már egyértelműsített szövegen. Chomsky: generatív grammatikák. • Alulról felfelé, felülről lefelé elemzés.
MI 2003/13 - 9 • A mondatok jelentése: atomi jelentések, kombinálási szabályok. Montague nyelvtanok. • Szematika (jelentéstan). Fogalmi hálók, wordnet. Keretek. • A Szeged korpusz szintaktikai feldolgozása. • Gazdasági hírek szemantikus feldolgozása.
MI 2003/13 - 10 • Vissza: tudásábrázolás • Szabályalakú rendszerek: ha A akkor B alakú mondatok. • Példa: nyolcas kirakós játék. Előre haladó (adatvezérelt). Visszafelé haladó (célvezérelt).
MI 2003/13 - 11 • Szemantikus (vagy asszociatív) hálók. Formálisan címkézett irányított gráfok, ahol a gráfok csúcsai fogalmakat vagy objektumokat reprezentálnak, az élek pedig a közöttük meglevő viszonyoknak, kapcsolatoknak felelnek meg, például: tagja (eleme) (instance of), ekvivalens (is equivalent of), tulajdonságú (has property of, színe, mérete), részosztálya (subclass of), ez egy (típusa) (is a ), részhalmaza (has part of).
MI 2003/13 - 12 • Nincs szabványos szintaxis, szemantika. Példa. A szemantikus háló felépítése. Öröklődés. Előnyök (explicit és tömör ábrázolás), hátrányok (nagy méretnél nehéz áttekinteni, nehéz szabványosítani a keresést). Következtetések a szemantikus hálón: tényháló, célháló. Kivételek és ellentmondások kezelése, prioritások.
MI 2003/13 - 13 • (Tudás)keret (frame): valamely fogalom vagy objektum strukturált modellje. A tulajdonságokat (attribútumokat) a keret rekeszei vagy bejegyzései nevezik meg – szemantikus háló továbbfejlesztése (érték megadása, alapértelmezése, forrása, a változáskor végrehajtandó eljárások (démonok)). Keretnyelv. Példa.
MI 2003/13 - 14 • Lényegesnek tűnő különbség a szemantikus hálókhoz képest: formális leírás létezik (keretnyelv). Valójában nem sok eltérés. Legegyszerűbb: a szemantikus háló átírása az adott keretnyelvre. • Példa. • Osztályok (legfelső szint) és példányok. • Öröklődés.
MI 2003/13 - 15 • Attribútumok megadása relációkkal. Bejegyzések: domain (ért. tart.), range (ért. készl.), constraint (megszorítás az értkészl-re), default (alapértelmezés), inverse, inheritance. Gráfos ábrázolás mellett további lehetőségek, például űrlappal (adatbázissal).
MI 2003/13 - 16 • Előnyök: esemény-vezérelt végrehajtás (démonok), világos, áttekinthető szerkezet, deklaratív és procedurális ismeretek együttes ábrázolása lehetséges. • Hátrányok: prototípustól való eltérés nehéz lehet, bővítés is.
MI 2003/13 - 17 • Beszédfelismerés • Fonéma: a legkisebb olyan részlet, amiben két szó eltérhet egymástól (gép-kép). - fonetikai változatosság - akusztikai változatosság - beszélők közötti változatosság - adott beszélő esetén levő változatosság
MI 2003/13 - 18 • Beszédértelmezés szintjei - fonetika - fonológia - morfológia (lexika) - szintaktika - szemantika - pragmatika
MI 2003/13 - 19 • Felismerők csoportosítása - beszédjel minősége - beszéd módja - beszélőfüggőség - szótár mérete - nyelvi kötöttség foka
MI 2003/13 - 20 • Általános struktúra - előfeldolgozás - szegmentálás - címkézés - lexikális elemzés (szótár) - nyelvi elemzés (szintaxis) - szemantikai elemzés
MI 2003/13 - 21 • Szegedi alkalmazások - számjegyek felismerése - halláskárosult gyerekek tanítása - beszédszintézis