1 / 26

Morfológia

Morfológia. A számítógépes nyelvfeldolgozás alapjai. A számítógépes nyelvfeldolgozás alapjai – 2013. március 4. Bevezető. Szöveg szavakra bontása megtörtént Szavak morfológiai elemzése Szótövesítés (lemmatizálás) Szófaji egyértelműsítés. Morfológiai elemzés.

regina
Download Presentation

Morfológia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 4.

  2. Bevezető Szöveg szavakra bontása megtörtént Szavak morfológiai elemzése Szótövesítés (lemmatizálás) Szófaji egyértelműsítés

  3. Morfológiai elemzés Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) magyar vs. angol Szótári alapalakok Lehetséges szóalakok száma Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) Eltárolható-e minden szóalak?

  4. Morfológiai elemző Lexikon: szótövek és toldalékok Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze Csak zárt szóosztályokra működik jól (névmások, kötőszavak…) – ezek kimerítően felsorolhatók a szótárban

  5. Lemmatizálás Szótövesítés: a morfológiai elemző feladata – a szóalakot tőre (lemmára) és toldalékokra bontja Képzés? Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) Mikor melyiket érdemes használni? szolgáltatások – szolgáltatás – szolgáltat – szolga

  6. Ismeretlen szavak elemzése A szókincs állandó bővülése miatt nincs benne minden szó a szótárban Lehetséges toldalékok listájára lehet csak hagyatkozni Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? Ha igen, levágjuk, és a maradékot kezeljük szótőként Az affixumok alapján kap morfológiai elemzést Előállítható-e két szótárban meglevő lemmából? (egérpad)

  7. Példa: vuvuzeláztál vuvuzeláz+tál (vuvuzeláz ige egyes szám második személyű múlt idejű alanyi ragozású alakja) vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám harmadik személyű jelen idejű alanyi tagozású ige) vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám második személyű múlt idejű alanyi ragozású ige) vuvuzelázt+ál (melléknév, vuvuzelázt lemmához hozzátettük az ál melléknevet) vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a tál főnevet) vuvuzel+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, vuvuzel lemmához hozzátettük az áztál igét) vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük először a láz, majd a tál főneveket) vuvuz+el+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük az eláztál igekötős igét)

  8. Kötőjelet tartalmazó szóalakok Hasonló az összetett szavakhoz A kötőjel utáni rész elemzése adja meg az egész szóalak elemzését A kötőjel után egész szó következik (labdarúgó-világbajnokság) A kötőjel után toldalék következik (GPS-nek)

  9. Problémák és megoldások GPS-szel Igei elemzés? Megszorítások: a toldaléklista bármely elemével való egyezés élvezzen elsőbbséget a szótár bármely (toldalékolt) elemével való egyezéssel szemben az összetett szavak és kötőjeles szavak elemzésénél nem engedünk meg bizonyos kombinációkat, melyeket nyelvtani okok miatt kell kizárni VERB+NOUN: gyakorolok - *gyakorol+ok PREVERB+NOUN: ellen - *el+len VERB + ADV: Róma - *ró+ma

  10. NE-k elemzése „normális” szavak esetén a szótárra + toldaléklistára hagyatkozik Az NE-k nem sorolhatók fel szótárban -> csak a toldaléklista elérhető Az NE látszólag ragozott: Pannon (Pann+on) McDonald’s minden lehetséges vágást végrehajtunk, és az eredményül kapott lemmákra keresünk a weben – a leggyakoribbat fogadjuk el helyesnek Citroenben Citroen + ben Citroenb + en Citroenbe + n

  11. Tulajdonnévlisták Segítik az elemzést Leggyakoribbakat érdemes felvenni Fontos a szótár mérete Ha túl kicsi, nem kapunk jó elemzéseket: Kansas – kan+sas Ha túl nagy, túlgenerálás: szemantika – szem+Antika

  12. Tulajdonnevekhez kötőjellel kapcsolt elemek ha a kötőjel utáni rész főnév, akkor a teljes szó elemzése legyen az, ami a kötőjel utáni részé: Bush-kormánnyal - -vAl ragos főnév ha a kötőjel után toldalék következik, a kötőjel előtti részt és a kötőjelet helyettesítsük egy másik lemmával (mintaillesztés) amennyiben sikerül elemezni, a kapott elemzés lesz a teljes szóalak címkéje: MTI-vel - felhővel - -vAl ragos főnév

  13. Morfológiai kódrendszerek Morfológiai elemzés alapja Szófaji (és szintaktikai) információ átfordítása gép által is könnyen kezelhető formátumba Kijelentő módú, jelen idejű, egyes szám harmadik személyű, tárgyas ragozású ige -> Vmip3s---y

  14. Kódrendszerek Nyelvfüggetlen (?) Nyelvfüggő Előnyök és hátrányok: nemzetközi összehasonlíthatóság nyelv sajátosságainak figyelembe vétele komplexitás Eltérő mélységű és minőségű információk – példák?

  15. Magyar kódrendszerek HUMOR MNSZ-ben Van rá elemző MSD Szeged Korpuszban Van rá elemző KR Nincs rá adatbázis Elemző van rá (min mérjük??? – MSD-KR harmonizáció)

  16. HUMor High-speed unification morphology Unifikációs nyelvleíráson alapul Tövek és morfémák együttes előfordulásra való képességük alapján jegyekkel vannak ellátva (előfordulhatnak-e együtt vagy sem?)

  17. MSD Morphosyntactic Description Nemzetközi kódrendszer: angol román szlovén cseh bolgár észt magyar

  18. MSD - 2 Pozicionális kódok Adott pozíció adott információtípust kódol 0. pozíció: szófaj 1. pozíció: szófajon belüli (al)típus További pozíciók: egyéb nyelvtani információk (szám, személy, ragozás stb.) Ami nem releváns a magyarban, nem írjuk ki (-)

  19. KR Magyarra lett kitalálva Jegy-érték struktúrákban kódolja az információt Vannak default jegyek (E/3., egyes szám stb.) Képzések és összetételek kezelése

  20. KR-MSD harmonizáció Szeged-Pest együttműködésben KR-ből: gyakorító, műveltető, ható igék kezelése, köznév és tulajdonnév megkülönböztetésének eltörlése MSD-ből: névmások elkülönítése, határozószók fokozhatósága Egységes morfológiai elemző és átalakított Szeged Korpusz 2.5 folyamatban…

  21. Magyar morfológiai elemzők HuMOR HuMOR-kódokra épül Nem szabad hozzáférésű Hunmorph KR-kódokra épül (morphdb.hu lexikai és morfológiai adatbázis) Nyílt forráskódú, ingyenes http://mokk.bme.hu/resources/hunmorph Magyarlanc MSD-kódokra épül, harmonizált KR-MSD hamarosan… morphdb.hu-t használja Ingyenes http://www.inf.u-szeged.hu/rgai/magyarlanc

  22. Szófaji egyértelműsítés POS-tagging – POS-tagger A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC

  23. Morfológiailag többértelmű szavak A Szeged Korpusz szövegszavainak kb. 50%-a többértelmű Szófaji egyértelműsítés fontossága Várnak Népének Művére Faszék Vámpír

  24. Szófaji egyértelműsítők Szabályalapú rendszerek: Szakértői szabályok Ha a következő szó főnév és a megelőző szó ige, akkor az adott szó legyen névelő Statisztikai rendszerek Rejtett Markov-modell (HMM) Maximum Entrópia (MaxEnt) Szekvenciajelölés (CRF): egész mondatra keres megfelelő címkesorozatot, nem egyes szavakra

  25. Magyar szófaji egyértelműsítők hunPOS HMM-alapú Nyílt forráskódú http://mokk.bme.hu/resources/hunpos purePOS HMM-alapú Nyílt forráskódú http://nlpg.itk.ppke.hu/software/purepos Magyarlanc Maximum entrópia alapú Ingyenes http://www.inf.u-szeged.hu/rgai/magyarlanc Online demó: http://www.inf.u-szeged.hu/rgai/magyarlanc-service/

  26. Kiértékelés Pontosság (accuracy) Hány %-ban találta el a szófaji elemzést és a lemmát Egyes osztályokra (szófajokra) F-mérték Mostani rendszerek ~96-97% pontosság körül teljesítenek

More Related