1 / 21

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10. A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczk ó Tibor, Rákosi György & Tóth Ágoston

robbin
Download Presentation

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

  2. A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczkó Tibor, Rákosi György & Tóth Ágoston Debreceni Egyetem, Angol-Amerikai Intézet {laczkot|rakosigy|tagoston}@delfin.unideb.hu

  3. a prezentáció vázlata kutatási előzmények, nemzetközi beágyazottság az elméleti és implementációs keret fő vállalásunk: a HG-1 korpusz elkészítése, adatbázis-kezelő rendszer kifejlesztése

  4. 1.1 kutatási előzmények, nemzetközi beágyazottság elméleti keret: lexikai-funkcionális grammatika (LFG) (l. később) (alkalmazott nyelvészeti) számítógépes implementációs platform: LFG alapú XLE-keret (Xerox Linguistic Environment ‘Xerox nyelvészeti környezet’) (l. később) Parallel Grammar –Párhuzamos Nyelvtan – egy nemzetköziLFG alapú nagyszabású számítógépes nyelvtanfejlesztő projekt Palo Alto Research Center, PARC (Kalifornia) Powerset (Microsoft), San Francisco (Kalifornia) bővebb információk: http://www2.parc.com/isl/groups/nltt/default.html

  5. 1.2kutatási előzmények, nemzetközi beágyazottság aktív, erőteljesnemzetköziegyüttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők a magyar LFGalapú XLE-s számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el a Palo Alto Research Center-ben (PARC) Fulbright kutatói ösztöndíj (Stanford University, PARC – 2005/2006)

  6. 1.3 kutatási előzmények, nemzetközi beágyazottság 2008: Lexical-Functional Grammar Research Group (‘Lexikai-Funkcionális Grammatikai Kutatócsoport’) a DE Angol-Amerikai Intézetének Angol Nyelvészeti Tanszékén állandó tagok: Laczkó Tibor (vezető kutató) Rákosi György (kutató) Tóth Ágoston (kutató) Csernyi Gábor (PhD hallgató) további (alkalmi) tagok: PhD hallgatók a kutatócsoport kiemelt kutatási-fejlesztési területe: HunGram (Hungarian Grammar ‘Magyar Grammatika’)

  7. 1.4 kutatási előzmények, nemzetközi beágyazottság a HunGram a ParGram „magyar tagozata” – szoros nemzetközi szakmai kapcsolat: LFG-konferenciák, rendszeres ParGram-os workshopok (évente 2) jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül folyik a fejlesztőmunka célok: egy magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése az eredmények implementálása a HunGram keretében empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása  a TÁMOP-pályázat illeszkedése a programhoz

  8. 1.5 kutatási előzmények, nemzetközi beágyazottság a közeljövő ParGram-os/HunGram-os tervei 2010. október: ParGram workshop a PARC-ban, résztvevő: Laczkó Tibor 2 prezentáció egy adott (közös) szöveg magyar fordításának HunGram-os elemzése (urdu mese) a HunGram legújabb eredményei ParGram workshop Debrecenben 2011 tavaszán + egynapos tematikus nemzetközi LFG-s konferencia  angol nyelvű kötet

  9. 2.1 elméleti és implementációs keret Elméleti keret: Lexikai-Funkcionális Grammatika ● Alapítók: Joan Bresnan (Stanford) Ron Kaplan (PARC/Powerset, Inc.) ● Fő jellemzők: • erős lexikalizmus • modularizmus • párhuzamos architektúra • formalizált szabályrendszer • implementálhatóság: generálás és elemzés ● Főbb reprezentációs szintek: • c-struktúra (összetevős szerkezet, lineáris sorrend) • f-struktúra (funkcionális/grammatikai információk)

  10. c-struktúra fonológia(nyelvspecifikus) szórend lexikon (erőteljes) f-struktúra szemantika (univerzális) grammatikai viszonyok 2.2 elméleti és implementációs keret

  11. 2.3 elméleti és implementációs keret TOKENIZÁLÓ MORFOLÓGIAI ELEMZŐ LEXIKON SZINTAXIS, SZEMANTIKA tokenizálás morfológiai elemzés lexikai kikeresés elemzés Számítógépes implementáció ● XLE (Xerox Linguistic Environment) A ParGram-projekt céljaira a PARC-ban létrehozott keret LFG-alapú számítógépes nyelvtanának kifejlesztésére. ● Moduláris felépítés

  12. 2.4 elméleti és implementációs keret

  13. 2.5 elméleti és implementációs keret Elsődleges nyelvtanírási feladatok ● Tokenizálás, morfológiai elemzés A meglévő tokenizáló és morfológiai elemző alrendszer alkalmazása, szükség szerinti fejlesztése. ● A lexikon létrehozása és folyamatos fejlesztése Lexikai tételek létrehozása a morfológián túli nyelvtanilag releváns jegyek tárolására (argumentumszerkezet, kollokációs megkötések, stb.). Manuális munka (sablonok felhasználásával). ● Nyelvtanfejlesztés A szükséges leíró jellegű, de elméletileg megalapozott szabályrendszer kidolgozása és kódolása az XLE-keretben. A nyelvtan folyamatos tesztelése, hatékonyságjavítás, hibák kiküszöbölése.

  14. 2.6 elméleti és implementációs keret Nyelvtanírás ●Fő célok → Egy teljes körű, a korpusz mondataihoz (esetleges minimális manuális korrekcióval) megfelelő elemzést generálni képes nyelvtan megírása és implementációja. → Ezzel párhuzamos elméleti kutatómunka, egy LFGalapú átfogó magyar nyelvtan kéziratának előkészítése. ● A nyelvtan jelen készültségi fázisa: - főnévi csoport kezelése (különösen a birtokos szerkezet és elliptikus szerkezetek) - névutós kifejezések elemzése - egyszerű mondatok elemzése (folyamatban)

  15. 3.1 HG-1: korpusz Cél: HG-1 korpusz létrehozása • 1,5 millió szavas treebank • automatikus annotációval ellátva a készülő magyar LFG nyelvtan XLE-s implementációjának felhasználásával • egy alkorpusz kézi egyértelműsítése / annotációja morfológiai és mondattani címkékkel • szövegek forrása: • Hunglish korpusz: nem annotált magyar-angol párhuzamos korpusz; • Szeged Treebank 2.0: 1,2 M szavas treebank (korpuszannotációját nem használjuk); • saját gyűjtésű „nyers” korpusz: főleg szépirodalom, technikai dokumentációk, hírek

  16. 3.2 HG-1: programozási feladatok 1) Automatikus mondatokra bontás. 2) Mondatok elemeztetése a készülő nyelvtannal feltöltött XLE elemzővel. Kimenet rögzítése, tárolása XML dokumentumban (a mondat összes lehetséges elemzését kódolva). <s id=“a1” txt=“Csak kevés víz van a korsóban.” src=“fájlnév#pos-pos”> <e> There is only a little water in the pitcher. </e> <pl> <-- f-struktúra, c-struktúra., morfológia --> </pl > </s>

  17. 3.3 HG-1: programozási feladatok 3) Alkorpuszok kezelése: korpuszfájlok darabolása és egyesítése, indexelés, statisztikák készítése (faszélesség, -mélység, szavak és mondatok száma), az XLE-ből kapott PROLOG-kódból kinyerhető összes lehetséges elemzés c-struktúrájának elkészítése és tárolása.

  18. 3.4 HG-1: programozási feladatok 4) Kiválasztott alkorpusz kézi egyértelműsítése ill. annotációja saját fejlesztésű, grafikus felületű szerkesztőprogrammal. Funkciók: • ábrázolás (ágrajz) • ágrajz kézi szerkesztése • bármelyik automatikusan generált elemzés kiindulópontként választható • a többszavas kifejezések lexikai egységként megjelölhetők, a morfológiai címkék megváltoztathatók • az ágrajzon élek és csomópontok létrehozhatók és törölhetők • a felhasználó által helyesnek vagy rossznak ítélt elemzések megfelelő feljelölése • megjegyzések elhelyezésének lehetősége

  19. 3.5 HG-1: programozási feladatok Ekkor egy mondat így jelenik meg az XML dokumentumban: <s id=“a1”txt=“Csak kevés víz van a korsóban.”src=“fájlnév#pos-pos”> <pl> <-- XLE kimenet: csomagolt f-str, c-str, morfológia --> </pl> <e> There is only a little water in the pitcher. </e> <a id=“1” t=“a”c=“y”> <-- fa #1 --> </a> <a id=“2” t=“a” c=“u”> <-- fa #2 --> </a> <a id=“3” t=“m”> <-- fa #3 --> </a> <r>Megjegyzés</r> </s>

  20. 3.6 HG-1: programozási feladatok ... <graph root="s5_507"> <terminals> <t id="s5_1" word="csak" pos="ADV" lem="csak" morph="+Adv"/> <t id="s5_2" word="kevés" pos="NUMBER" lem="kevés" morph="+NumPron +Sg +Nom"/> <t id="s5_3" word="víz" pos="N" lem="víz" morph="+Noun +Sg +Nom"/> <t id="s5_4" word="van" pos="V" lem="van" morph="+Verb +PresInd +Indef +Sg +3P"/> <t id="s5_5" word="a" pos="D" lem="a" morph="+Art +Def"/> <t id="s5_6" word="korsóban" pos="N" lem="korsó" morph="+Noun +Sg +Ine"/> </terminals> <nonterminals> <nt id="s5_500" cat="NPdet"> <edge idref="s5_2"/> <edge idref="s5_3"/> </nt> <nt id="s5_501" cat="DP"> <edge idref="s5_500"/> </nt> <nt id="s5_502" cat="DPonly"> <edge idref="s5_1"/> <edge idref="s5_501"/> </nt> <nt id="s5_503" cat="D'"> <edge idref="s5_5"/> <edge idref="s5_6"/> </nt> <nt id="s5_504" cat="DP"> <edge idref="s5_503"/> </nt> <nt id="s5_505" cat="Vposbar"> <edge idref="s5_4"/> <edge idref="s5_504"/> </nt> <nt id="s5_506" cat="VPpos"> <edge idref="s5_502"/> <edge idref="s5_505"/> </nt> <nt id="s5_507" cat="S"> <edge idref="s5_506"/> </nt> </nonterminals> </graph> ...

  21. 3.7 HG-1: programozási feladatok 5) On-line lekérdezési felület • szóra vagy lemmára keresés reguláris kifejezésekkel • keresés szűrése morfológiai jegyekre és a keresett szót tartalmazó összetevőre (szűrés beállítása űrlap segítségével) • a találatok KWIC konkordanciaként való megjelenítése • a konkordanciából kiválasztott mondat ágrajzának megjelenítése • később bővíthető (pl. kollokációk keresése) Felhasználási lehetőségek: nyelvoktatás, nyelvtanulás, lexikográfia, elméleti nyelvészet

More Related