150 likes | 270 Views
Významy morfologických kategorií v PDT 2.0. Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005. PDT 2.0 – roviny anotace. slovní rovina (W-rovina) bez anotace
E N D
Významy morfologických kategoriív PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005
PDT 2.0 – roviny anotace • slovní rovina (W-rovina) • bez anotace • morfologická rovina (tvarosloví; M-rovina) • morfologické lema a tag • analytická rovina (A-rovina) • povrchová struktura věty, A-strom • tektogramatická rovina (T-rovina) • hloubková struktura věty, T-strom; gramatémy 2/15
Atributy uzlu T- stromu • T-lemma – lexikální hodnota uzlu, sekvence grafémů (nebo „umělé“ lema, př. #Gen) • funktor – funkce slova v hloubkové struktuře věty + subfunktor • tfa – zařazení uzlu do tematické / rematické části výpovědi • sempos– sémantický slovní druh tektogramatického uzlu • gramatémy – nejčastěji tektogramatické protějšky morfologických kategorií Nejvážnějším problémem příjmů je nízký výnos daně z obratu. 3/15
Gramatémy a reprezentace významu věty T-stromem • Nejvážnějším problémem příjmů je nízký výnos daně z obratu. ? Vážnějším problémem příjmů byly nízké výnosy daně z obratu. • ? Nevážným problémem příjmů bude nižší výnos daně z obratu. • ? ... 4/15
Gramatémy vs. morfologický tag • gramatémy • morfologický tag • 16 gramatémů • 15 pozic + další informace (nemorfologické) • náleží pouze T-uzlům reprezentujícím autosémantická slova • náleží každému tokenu • všechny morfologické kategorie • pouze významově relevantní kategorie • přidělování hodnot z hlediska významu • „významové“ číslo • ... • přidělování hodnot podle formální realizace dané kategorie 5/15
Přiřazování gramatémů T-uzlůmAtributy nodetype a sempos T-uzly nodetype: 8 typů T-uzlů root complex atom coap fphr dphr list qcomplex sémantická adjektiva sémantická adverbia sémantická slovesa sempos: zařazení komplexních T-uzlů do sémantických slovních druhů 6/15
Přiřazování gramatémů T-uzlům Sémantické vs. „tradiční“ slovní druhy „ prototypické“ vztahy mezi sémantickými a „tradičními“ slovními druhy rozřazení zájmen a číslovek do sémantických slovních druhů zařazení podle slovotvorných vztahů 7/15
Gramatémy • na tektogramatické rovině 16 gramatémů: • gender • person • number • degcmp • tense • aspect • verbmod • indeftype • numertype • negation • iterativeness • sentmod • deontmod • dispmod • resultative • politeness 8/15
Gramatém čísla number • hodnoty: sg, pl (+ nr) • hodnota gramatému zpravidla koresponduje s morfologickou kategorií čísla • asymetrie mezi povrchovou a hloubkovou hodnotou: • pluralia tantum: př.jedny dveře.sg, dvoje dveře.pl • zdvořilé užití zájmen 2. osoby:vy.sgjste přišel 9/15
Gramatém stupně degcmp • hodnoty: pos, comp, acomp, sup (+ nr) • hodnota gramatému koresponduje s morfologickou kategorií čísla – kromě: • acomp – „absolutní komparativ“ (2. stupeň bez významu srovnání): př. muž tmavší pleti, starší žena, vyšší odborná škola, každá větší pobočka, Otakar Brousek starší 10/15
Gramatém času tense (i) • hodnoty • u T-uzlů reprezentujících neimperativní určité formy slovesa nebo přechodníky: • sim (současný s okamžikem promluvy / jiným dějem) př. Rád spí, Rád by spal, Hlasitě naříkajíc, odcházela… • ant (předcházející k okamžiku promluvy / jinému ději) př. Spal, Probudil se, Byl by spal, ale… Napsavši vzkaz, odešla… • post (následný k okamžiku promluvy / jinému ději) př. Až se vyspí, bude přemýšlet, zda tam půjde… • u ostatních slovesných T-uzlů (u imperativu, infinitivu):nil (+ nr) • hodnota gramatému „zkombinována“ z časových charakteristik všech částí slovesného tvaru 11/15
Gramatém času tense (ii) S napětím budeme sledovat, jak tento boj dopadne… T-rovina: M-rovina: budeme sledovat: být, VB-P---1F-AA--- sledovat_:T,Vf--------A---- A-rovina: 12/15
Vyhledávání v PDT 2.0 pomocí gramatémů Při zakládání nových družstev nebo při vyčleňování části družstva by jejich zakladatelé měli mít reálnou představu o fungování a povinnostech malého bytového družstva jako právnické osoby. ? KONDICIONÁL ? PREDIKÁT S MODÁLNÍM SLOVESEM by měli mít: být,Vc------------- mít,VpMP---XR-AA--- mít,Vf--------A---- 13/15
Na závěr • význam gramatémů pro strojový překlad – př.: • adekvátní strojový překlad pomnožných substantiv (otevřel dveřehe opened the door; nikoli the doors) • zmenšení slovníku adjektiv: ve slovníku pro každé adjektivum pouze pozitiv; komparativ a superlativ ošetřeny pomocí gramatému • hledání odpovídajícího vyjádření celého slovesného tvaru jako celku, nikoli překládání jednotlivých částí tvaru (měly by mítthey should have) ... • další práce • rozpracování systému gramatémů především u sloves • revize systému gramatémů vzhledem ke zpracovávání pojmenovaných entit ... 14/15
Reference • http://ufal.mff.cuni.cz/pdt2.0/ • Hajič, J. et al., Prague Dependency Treebank 1.0 (Final Production Label), • CDROMCAT: LDC2001T10, ISBN 1-58563-212-0, 2001. • Panevová, J., Formy a funkce ve stavběčeské věty, Praha, Academia, 1980. • Sgall, P., Generativní popis jazyka a česká deklinace, Praha, Academia, 1967. • Sgall, P., E. Hajičová, and J. Panevová, The Meaning of the Sentence in Its • Semantic and Pragmatic Aspects, Dordrecht, Reidel – Praha, Academia, 1986. • Razímová, M., Z. Žabokrtský, Morphological Meanings in the Prague Dependency Treebank 2.0, • in Proceedings of Text, Speech and Dialogue (ed. V. Matoušek, P. Mautner, T. Pavelka), Springer-Verlag, • pp. 148-155, 2005. • Razímová, M., Meanings of Morphological Categories on the TectogrammaticalLevel, • in WDS'05 Proceedings of Contributed Papers: Part I - Mathematics and Computer Sciences • (ed. J.Šafránková), Prague, Matfyzpress, pp. 72-77, 2005. 15/15