110 likes | 259 Views
Magyar nyelvi szintaktikai elemzőrendszerek. Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport. A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap 2013. január 18. Bevezetés.
E N D
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap 2013. január 18.
Bevezetés • Szintaxis: mondat szavai között levő nyelvtani kapcsolatok (alany-ige, főnév-névutó stb.) azonosítása (gépi úton) • Szövegek nyelvtechnológiai feldolgozásának egy lépése
Szintaxis az alkalmazásokban • A szintaktikai elemzés általában előfeldolgozó lépés egy magasabb rendű feladathoz • Gépi fordítás Tegnap az irodában Péter öt levelet írt. TEMP LOC SUBJ OBJ VERB Peter wrote five letters in the office yesterday. SUBJ VERB OBJ LOC TEMP
Számítógépes szintaxis • Szabályalapú elemzés • Statisztikai elemzés • Nagyméretű adatbázisok (treebankek) • Elemzők (parserek) • Konstituens-nyelvtan • Függőségi nyelvtan
Statisztikai szintaktikai elemzés • Angol nyelvre kifejlesztett technológiák • Konstituens- és függőségi alapú elemzők • Kötött szórend vs. szabad szórend • Nehezebb-e a magyar, mint az angol?
Magyar nyelvű szintaktikai elemzés • Magyar: • Ragozó nyelv (gazdag morfológia) • Szabad szórend • Szeged (Dependencia) Treebank • 1,2M szövegszó • 82 000 mondat • Konstituensalapú és függőségi kézi elemzés • Statisztikai elemzők betanítása és kiértékelése
Kísérletek • Angol elemzők magyar nyelvre történő adaptálása • Konstituens- és függőségi elemző is elfogadható eredményeket nyújt • Nyelvspecifikus hibák
Virtuális csomópontok • létige kijelentő mód jelen idő E/3. alakja nem jelenik meg a felszínen: András katona (*van). András legyen katona! András katona lesz. • azonos kezelési mód: András VAN katona.
Távoli függőségek • Összetartozó elemek távol helyezkednek el egymástól A fiúnak látta a kutyáját. • Melléknévi igenevek és főnévi igenevek módosítói A század elején jól bevált módszerhez próbálnak meg visszatérni. Meg kívánta ragadni az alkalmat.
Összegzés • Magyar nyelvű szintaktikai elemzés • Viszonylag jók a magyar eredmények – nem nehezebb nyelv a magyar • Nyelvspecifikus sajátosságokra érdemes koncentrálni