200 likes | 323 Views
Testování konzistence a úplnosti valen č ního slovníku č eských sloves. Markéta Lopatková, Zdeněk Žabokrtský Centr um komputační lingvistiky MFF UK, Prague { lopatkova,zabokrtsky }@ ckl.mff.cuni.cz. ITAT 2003 1. Motivation. ‘traditional’ linguistics
E N D
Testování konzistence a úplnosti valenčního slovníku českých sloves Markéta Lopatková, Zdeněk Žabokrtský Centrumkomputační lingvistiky MFF UK, Prague {lopatkova,zabokrtsky}@ckl.mff.cuni.cz ITAT 2003 1
Motivation • ‘traditional’ linguistics • source of data for linguistic research • verification of theoretical criteria set up • natural language processing • lemmatization • morphological tagging • syntactic analysis • word sense disambiguation • ‘semantic analysis’ • machine translation • building other resources • language acquisition ITAT 2003 2
Trocha teorie – co je valence? • „Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury“ (Svozilová et al., Slovesa pro praxi) • teorie: Funkční generativnípopis (FGD) (Sgall et al., 1986) • závislostně orientovaný • stratifikační • rovina podkladové reprezentace (‘tektogramatickárovina’)(Hajičová et al., 2000) • teorie valence(esp. Panevová, 1994) ITAT 2003 3
Trocha teorie – co je valence? • valenční rámec: • syntakticko-sémantická struktura slovesných doplnění (pro jednotlivé významy slovesa) • slovesná doplnění: • aktanty (vnitřní doplnění) vs. volná doplnění • Actor, Patient, Addressee, Origin, Effect • např. časová, místní, způsobová • obligatorní vs. fakultativní • kritéria: • syntaktická • Actor a Patient • sémantická • další aktanty (Addressee, Origin and Effect) • volná doplnění ITAT2003 4
Příklady Matka.ACT předělaladětem.ADDR loutku.PAT z Kašpárka.ORIGna čerta.EFF. (Panevová) Rodiče.ACT čekají na dítě.PAT před školou.LOC. Petr.ACT Pavlovi.ADDR řekl o katastrofě.PAT. Děti.ACT přišli pozdě.TWHEN (domů, sem.DIR3). Venku.LOC prší. V Praze.LOC se sejdeme na Hlavním nádraží.LOC u pokladen.LOC. (Panevová) Jan.ACT oslovil Marii.PAT na ulici.LOC. Kniha.ACT vyšla. (Panevová) Chlapec.ACT vyrostlv muže.PAT. (Panevová) Z banálního nachlazení.PAT se vyvinulo závažné onemocnění.ACT. ITAT 2003 5
Valenční slovník českých sloves – VALLEX • komplexní informace o slovesném lexému • všechny významy slovesa(Lopatková, Žabokrtský, 2002) • informace o jednotlivých valenčních rámcích • typicky odpovídají jednotlivým významům slovesa • popsána pomocí glos a příkladů • informace specifikující členy valenčního rámce • ‘funktor’ – vztah mezi slovesem a doplněním • typ doplnění - obligatorní / fakultativní / typické • povrchová forma mluvit... ACT(1;obl) ADDR(s+7;obl) PAT(o+6;opt) mluvila s ním o dětech vyměnit ... ACT(1;obl) ADDR(3;opt) PAT(4;obl) EFF(za+4;obl) ruské zajatce.PAT vyměnili za naše lidi.EFF vyměnila mu.ADDR marky.PAT za dolary.EFF • doplňující syntaktické informace ITAT 2003 6
Valenční slovník českých sloves – VALLEX • doplňující syntaktické informace: • reflexivita (in progress) • reciprocita • gramatická kontrola • vid a vidové protějšky • primární / posunuté / idiomatické užití • syntacticko-sémantická třída (in progress) • odkazy na Český EuroWordNet (in progress) • současný stav: • 1 450 slovess3 860valenčními rámci t.j. 2,7 rámce na sloveso • slovesa podle frekvence v ČNK a PDT • pokrytí cca 85% na ‘běžícím textu’ v PDT kromě slovesa být a modálních sloves ITAT 2003 7
Proč testovat konzistenci a úplnost slovníku? • proč • neexistence teorie • čemu věnována pozornost • vyvinout metodologii evaluace slovníku, kvalifikovaný odhad množství chyb, mezianotátorské shody ITAT 2003 9
Jaké nástroje lze použít? • vyhledávací rozhraní pro www • podřetězec nebo regulární výraz • nalezené rámce (resp. jejich atributy) • rozložení hodnot vybraného atributu přes nalezené rámce, rozložení funktorů, forem, forem přes funktory • vyhledávání v dostupných elektronických zdrojích • SPP, SSJČ, SČFI, Czech EWN, ČNK • XSH XML Editing Shell (P. Pajas) • dotazy přesahující možnosti grafického rozhraní ITAT 2003 10
Jaké nástroje lze použít? • vyhledávací rozhraní pro www • podřetězec nebo regulární výraz • nalezené rámce (resp. jejich atributy) • rozložení hodnot vybraného atributu přes nalezené rámce, rozložení funktorů, forem, forem přes funktory • vyhledávání v dostupných elektronických zdrojích • SPP, SSJČ, SČFI, Czech EWN, ČNK • XSH XML Editing Shell (P. Pajas) • dotazy přesahující možnosti grafického rozhraní ITAT 2003 13
Jaké nástroje lze použít? • vyhledávací rozhraní pro www • podřetězec nebo regulární výraz • nalezené rámce (resp. jejich atributy) • rozložení hodnot vybraného atributu přes nalezené rámce, rozložení funktorů, forem, forem přes funktory • vyhledávání v dostupných elektronických zdrojích • SPP, SSJČ, SČFI, Czech EWN, ČNK • XSH - XML Editing Shell (P. Pajas) • dotazy přesahující možnosti grafického rozhraní ITAT 2003 15
Jak tedy zajistit konzistenci a úplnost? • odstranění čistě technických nedostatků • prohřešky proti striktně formulované notaci • porovnání s jinými lexikografickými zdroji • existence a konzistence zdrojů • ověřování na ČNK • 60-100 výskytů lexému (náhodně vybráno) • ověření vhodného rozčlenění rámců na významy • ověřování úplnosti • testování konzistence uvnitř VALLEXu ITAT 2003 16
K čemu valenční slovník? • reaching the consistency of assigning the valency structure (PDT-VALLEX) • automatic syntactic analysis (‘shallow parsing’) • ‘tectogrammatical parser’ • automatic system for creating an underlying representation of Czech sentences • source data for building the valency lexicon of nouns CIL XVII, Prague, July 26, 2003 21
Jazykové zdroje • teoretické články (Panevová) • The Manual for Tectogrammatical Tagging of the Prague Dependency Treebank (Hajičová et al., 2000) • seznamy slovesných doplnění užívané při anotaci PDT • elektronický valenční slovník povrchových realizací BRIEF(FI MU Brno, Pala, Ševeček, 1997) • tištěné slovníky Slovesa pro praxi (SPP, 1997), valenčníspecifikace 767 nejčastějších českých sloves Slovník spisovného jazyka českého (SSJČ, 1964) Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978) Slovník českých synonym (SČS, 1994) Slovník české frazeologie a idiomatiky (SČFI, 1983) • Český národní korpus (ČNK) • EuroWordNet, Czech WordNet CIL XVII, Prague, July 26, 2003 22
References I. • Hajičová, E. et al. (2000) A Manual for Tectogrammatical Tagging of the Prague Dependency Treebank. UFAL/CKL Technical Report TR-2000-09. • Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves.UFAL/CKL Technical Report TR-2002-15. • Lopatková, M., Žabokrtský, Z. (2002) Valency Dictionary of Czech Verbs. In: LREC 2002, Proceedings, pp. 949-956. • Lopatková, M. (2003) Valency in the Prague Dependency Treebank: Building the Valency Lexicon. PBML 79. (in press) • Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. • Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I, PBML22, pp. 3-40, Part II, PBML 23, pp. 17-52. • Panevová, J.(1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. • Panevová, J.(1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. • Panevová, J.(2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a specifika 2, Masarykova Univerzita, Brno, pp. 173-180. • Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) • Sgall, P. et al. (1986)The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia. CIL XVII, Prague, July 26, 2003 23
References II. • Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. • Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I, PBML22, pp. 3-40, Part II, PBML 23, pp. 17-52. • Panevová, J.(1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. • Panevová, J.(1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. • Panevová, J.(2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a specifika 2, Masarykova Univerzita, Brno, pp. 173-180. • Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) • Sgall, P. et al. (1986)The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia. CIL XVII, Prague, July 26, 2003 24