1 / 15

Významy morfologických kategorií v PDT 2.0

Významy morfologických kategorií v PDT 2.0. Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005. PDT 2.0 – roviny anotace. slovní rovina (W-rovina) bez anotace

Download Presentation

Významy morfologických kategorií v PDT 2.0

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Významy morfologických kategoriív PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005

  2. PDT 2.0 – roviny anotace • slovní rovina (W-rovina) • bez anotace • morfologická rovina (tvarosloví; M-rovina) • morfologické lema a tag • analytická rovina (A-rovina) • povrchová struktura věty, A-strom • tektogramatická rovina (T-rovina) • hloubková struktura věty, T-strom; gramatémy 2/15

  3. Atributy uzlu T- stromu • T-lemma – lexikální hodnota uzlu, sekvence grafémů (nebo „umělé“ lema, př. #Gen) • funktor – funkce slova v hloubkové struktuře věty + subfunktor • tfa – zařazení uzlu do tematické / rematické části výpovědi • sempos– sémantický slovní druh tektogramatického uzlu • gramatémy – nejčastěji tektogramatické protějšky morfologických kategorií Nejvážnějším problémem příjmů je nízký výnos daně z obratu. 3/15

  4. Gramatémy a reprezentace významu věty T-stromem • Nejvážnějším problémem příjmů je nízký výnos daně z obratu. ? Vážnějším problémem příjmů byly nízké výnosy daně z obratu. • ? Nevážným problémem příjmů bude nižší výnos daně z obratu. • ? ... 4/15

  5. Gramatémy vs. morfologický tag • gramatémy • morfologický tag • 16 gramatémů • 15 pozic + další informace (nemorfologické) • náleží pouze T-uzlům reprezentujícím autosémantická slova • náleží každému tokenu • všechny morfologické kategorie • pouze významově relevantní kategorie • přidělování hodnot z hlediska významu • „významové“ číslo • ... • přidělování hodnot podle formální realizace dané kategorie 5/15

  6. Přiřazování gramatémů T-uzlůmAtributy nodetype a sempos T-uzly nodetype: 8 typů T-uzlů root complex atom coap fphr dphr list qcomplex sémantická adjektiva sémantická adverbia sémantická slovesa sempos: zařazení komplexních T-uzlů do sémantických slovních druhů 6/15

  7. Přiřazování gramatémů T-uzlům Sémantické vs. „tradiční“ slovní druhy „ prototypické“ vztahy mezi sémantickými a „tradičními“ slovními druhy rozřazení zájmen a číslovek do sémantických slovních druhů zařazení podle slovotvorných vztahů 7/15

  8. Gramatémy • na tektogramatické rovině 16 gramatémů: • gender • person • number • degcmp • tense • aspect • verbmod • indeftype • numertype • negation • iterativeness • sentmod • deontmod • dispmod • resultative • politeness 8/15

  9. Gramatém čísla number • hodnoty: sg, pl (+ nr) • hodnota gramatému zpravidla koresponduje s morfologickou kategorií čísla • asymetrie mezi povrchovou a hloubkovou hodnotou: • pluralia tantum: př.jedny dveře.sg, dvoje dveře.pl • zdvořilé užití zájmen 2. osoby:vy.sgjste přišel 9/15

  10. Gramatém stupně degcmp • hodnoty: pos, comp, acomp, sup (+ nr) • hodnota gramatému koresponduje s morfologickou kategorií čísla – kromě: • acomp – „absolutní komparativ“ (2. stupeň bez významu srovnání): př. muž tmavší pleti, starší žena, vyšší odborná škola, každá větší pobočka, Otakar Brousek starší 10/15

  11. Gramatém času tense (i) • hodnoty • u T-uzlů reprezentujících neimperativní určité formy slovesa nebo přechodníky: • sim (současný s okamžikem promluvy / jiným dějem) př. Rád spí, Rád by spal, Hlasitě naříkajíc, odcházela… • ant (předcházející k okamžiku promluvy / jinému ději) př. Spal, Probudil se, Byl by spal, ale… Napsavši vzkaz, odešla… • post (následný k okamžiku promluvy / jinému ději) př. Až se vyspí, bude přemýšlet, zda tam půjde… • u ostatních slovesných T-uzlů (u imperativu, infinitivu):nil (+ nr) • hodnota gramatému „zkombinována“ z časových charakteristik všech částí slovesného tvaru 11/15

  12. Gramatém času tense (ii) S napětím budeme sledovat, jak tento boj dopadne… T-rovina: M-rovina: budeme sledovat: být, VB-P---1F-AA--- sledovat_:T,Vf--------A---- A-rovina: 12/15

  13. Vyhledávání v PDT 2.0 pomocí gramatémů Při zakládání nových družstev nebo při vyčleňování části družstva by jejich zakladatelé měli mít reálnou představu o fungování a povinnostech malého bytového družstva jako právnické osoby. ? KONDICIONÁL ? PREDIKÁT S MODÁLNÍM SLOVESEM by měli mít: být,Vc------------- mít,VpMP---XR-AA--- mít,Vf--------A---- 13/15

  14. Na závěr • význam gramatémů pro strojový překlad – př.: • adekvátní strojový překlad pomnožných substantiv (otevřel dveřehe opened the door; nikoli the doors) • zmenšení slovníku adjektiv: ve slovníku pro každé adjektivum pouze pozitiv; komparativ a superlativ ošetřeny pomocí gramatému • hledání odpovídajícího vyjádření celého slovesného tvaru jako celku, nikoli překládání jednotlivých částí tvaru (měly by mítthey should have) ... • další práce • rozpracování systému gramatémů především u sloves • revize systému gramatémů vzhledem ke zpracovávání pojmenovaných entit ... 14/15

  15. Reference • http://ufal.mff.cuni.cz/pdt2.0/ • Hajič, J. et al., Prague Dependency Treebank 1.0 (Final Production Label), • CDROMCAT: LDC2001T10, ISBN 1-58563-212-0, 2001. • Panevová, J., Formy a funkce ve stavběčeské věty, Praha, Academia, 1980. • Sgall, P., Generativní popis jazyka a česká deklinace, Praha, Academia, 1967. • Sgall, P., E. Hajičová, and J. Panevová, The Meaning of the Sentence in Its • Semantic and Pragmatic Aspects, Dordrecht, Reidel – Praha, Academia, 1986. • Razímová, M., Z. Žabokrtský, Morphological Meanings in the Prague Dependency Treebank 2.0, • in Proceedings of Text, Speech and Dialogue (ed. V. Matoušek, P. Mautner, T. Pavelka), Springer-Verlag, • pp. 148-155, 2005. • Razímová, M., Meanings of Morphological Categories on the TectogrammaticalLevel, • in WDS'05 Proceedings of Contributed Papers: Part I - Mathematics and Computer Sciences • (ed. J.Šafránková), Prague, Matfyzpress, pp. 72-77, 2005. 15/15

More Related