1 / 20

Testování konzistence a úplnosti valen č ního slovníku č eských sloves

Testování konzistence a úplnosti valen č ního slovníku č eských sloves. Markéta Lopatková, Zdeněk Žabokrtský Centr um komputační lingvistiky MFF UK, Prague { lopatkova,zabokrtsky }@ ckl.mff.cuni.cz. ITAT 2003 1. Motivation. ‘traditional’ linguistics

morse
Download Presentation

Testování konzistence a úplnosti valen č ního slovníku č eských sloves

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Testování konzistence a úplnosti valenčního slovníku českých sloves Markéta Lopatková, Zdeněk Žabokrtský Centrumkomputační lingvistiky MFF UK, Prague {lopatkova,zabokrtsky}@ckl.mff.cuni.cz ITAT 2003 1

  2. Motivation • ‘traditional’ linguistics • source of data for linguistic research • verification of theoretical criteria set up • natural language processing • lemmatization • morphological tagging • syntactic analysis • word sense disambiguation • ‘semantic analysis’ • machine translation • building other resources • language acquisition ITAT 2003 2

  3. Trocha teorie – co je valence? • „Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury“ (Svozilová et al., Slovesa pro praxi) • teorie: Funkční generativnípopis (FGD) (Sgall et al., 1986) • závislostně orientovaný • stratifikační • rovina podkladové reprezentace (‘tektogramatickárovina’)(Hajičová et al., 2000) • teorie valence(esp. Panevová, 1994) ITAT 2003 3

  4. Trocha teorie – co je valence? • valenční rámec: • syntakticko-sémantická struktura slovesných doplnění (pro jednotlivé významy slovesa) • slovesná doplnění: • aktanty (vnitřní doplnění) vs. volná doplnění • Actor, Patient, Addressee, Origin, Effect • např. časová, místní, způsobová • obligatorní vs. fakultativní • kritéria: • syntaktická • Actor a Patient • sémantická • další aktanty (Addressee, Origin and Effect) • volná doplnění ITAT2003 4

  5. Příklady Matka.ACT předělaladětem.ADDR loutku.PAT z Kašpárka.ORIGna čerta.EFF. (Panevová) Rodiče.ACT čekají na dítě.PAT před školou.LOC. Petr.ACT Pavlovi.ADDR řekl o katastrofě.PAT. Děti.ACT přišli pozdě.TWHEN (domů, sem.DIR3). Venku.LOC prší. V Praze.LOC se sejdeme na Hlavním nádraží.LOC u pokladen.LOC. (Panevová) Jan.ACT oslovil Marii.PAT na ulici.LOC. Kniha.ACT vyšla. (Panevová) Chlapec.ACT vyrostlv muže.PAT. (Panevová) Z banálního nachlazení.PAT se vyvinulo závažné onemocnění.ACT. ITAT 2003 5

  6. Valenční slovník českých sloves – VALLEX • komplexní informace o slovesném lexému • všechny významy slovesa(Lopatková, Žabokrtský, 2002) • informace o jednotlivých valenčních rámcích • typicky odpovídají jednotlivým významům slovesa • popsána pomocí glos a příkladů • informace specifikující členy valenčního rámce • ‘funktor’ – vztah mezi slovesem a doplněním • typ doplnění - obligatorní / fakultativní / typické • povrchová forma mluvit... ACT(1;obl) ADDR(s+7;obl) PAT(o+6;opt) mluvila s ním o dětech vyměnit ... ACT(1;obl) ADDR(3;opt) PAT(4;obl) EFF(za+4;obl) ruské zajatce.PAT vyměnili za naše lidi.EFF vyměnila mu.ADDR marky.PAT za dolary.EFF • doplňující syntaktické informace ITAT 2003 6

  7. Valenční slovník českých sloves – VALLEX • doplňující syntaktické informace: • reflexivita (in progress) • reciprocita • gramatická kontrola • vid a vidové protějšky • primární / posunuté / idiomatické užití • syntacticko-sémantická třída (in progress) • odkazy na Český EuroWordNet (in progress) • současný stav: • 1 450 slovess3 860valenčními rámci t.j. 2,7 rámce na sloveso • slovesa podle frekvence v ČNK a PDT • pokrytí cca 85% na ‘běžícím textu’ v PDT kromě slovesa být a modálních sloves ITAT 2003 7

  8. Proč testovat konzistenci a úplnost slovníku? • proč • neexistence teorie • čemu věnována pozornost • vyvinout metodologii evaluace slovníku, kvalifikovaný odhad množství chyb, mezianotátorské shody ITAT 2003 9

  9. Jaké nástroje lze použít? • vyhledávací rozhraní pro www • podřetězec nebo regulární výraz • nalezené rámce (resp. jejich atributy) • rozložení hodnot vybraného atributu přes nalezené rámce, rozložení funktorů, forem, forem přes funktory • vyhledávání v dostupných elektronických zdrojích • SPP, SSJČ, SČFI, Czech EWN, ČNK • XSH XML Editing Shell (P. Pajas) • dotazy přesahující možnosti grafického rozhraní ITAT 2003 10

  10. Jaké nástroje lze použít? • vyhledávací rozhraní pro www • podřetězec nebo regulární výraz • nalezené rámce (resp. jejich atributy) • rozložení hodnot vybraného atributu přes nalezené rámce, rozložení funktorů, forem, forem přes funktory • vyhledávání v dostupných elektronických zdrojích • SPP, SSJČ, SČFI, Czech EWN, ČNK • XSH XML Editing Shell (P. Pajas) • dotazy přesahující možnosti grafického rozhraní ITAT 2003 13

  11. Jaké nástroje lze použít? • vyhledávací rozhraní pro www • podřetězec nebo regulární výraz • nalezené rámce (resp. jejich atributy) • rozložení hodnot vybraného atributu přes nalezené rámce, rozložení funktorů, forem, forem přes funktory • vyhledávání v dostupných elektronických zdrojích • SPP, SSJČ, SČFI, Czech EWN, ČNK • XSH - XML Editing Shell (P. Pajas) • dotazy přesahující možnosti grafického rozhraní ITAT 2003 15

  12. Jak tedy zajistit konzistenci a úplnost? • odstranění čistě technických nedostatků • prohřešky proti striktně formulované notaci • porovnání s jinými lexikografickými zdroji • existence a konzistence zdrojů • ověřování na ČNK • 60-100 výskytů lexému (náhodně vybráno) • ověření vhodného rozčlenění rámců na významy • ověřování úplnosti • testování konzistence uvnitř VALLEXu ITAT 2003 16

  13. K čemu valenční slovník? • reaching the consistency of assigning the valency structure (PDT-VALLEX) • automatic syntactic analysis (‘shallow parsing’) • ‘tectogrammatical parser’ • automatic system for creating an underlying representation of Czech sentences • source data for building the valency lexicon of nouns CIL XVII, Prague, July 26, 2003 21

  14. Jazykové zdroje • teoretické články (Panevová) • The Manual for Tectogrammatical Tagging of the Prague Dependency Treebank (Hajičová et al., 2000) • seznamy slovesných doplnění užívané při anotaci PDT • elektronický valenční slovník povrchových realizací BRIEF(FI MU Brno, Pala, Ševeček, 1997) • tištěné slovníky Slovesa pro praxi (SPP, 1997), valenčníspecifikace 767 nejčastějších českých sloves Slovník spisovného jazyka českého (SSJČ, 1964) Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978) Slovník českých synonym (SČS, 1994) Slovník české frazeologie a idiomatiky (SČFI, 1983) • Český národní korpus (ČNK) • EuroWordNet, Czech WordNet CIL XVII, Prague, July 26, 2003 22

  15. References I. • Hajičová, E. et al. (2000) A Manual for Tectogrammatical Tagging of the Prague Dependency Treebank. UFAL/CKL Technical Report TR-2000-09. • Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves.UFAL/CKL Technical Report TR-2002-15. • Lopatková, M., Žabokrtský, Z. (2002) Valency Dictionary of Czech Verbs. In: LREC 2002, Proceedings, pp. 949-956. • Lopatková, M. (2003) Valency in the Prague Dependency Treebank: Building the Valency Lexicon. PBML 79. (in press) • Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. • Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I, PBML22, pp. 3-40, Part II, PBML 23, pp. 17-52. • Panevová, J.(1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. • Panevová, J.(1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. • Panevová, J.(2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a specifika 2, Masarykova Univerzita, Brno, pp. 173-180. • Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) • Sgall, P. et al. (1986)The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia. CIL XVII, Prague, July 26, 2003 23

  16. References II. • Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. • Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I, PBML22, pp. 3-40, Part II, PBML 23, pp. 17-52. • Panevová, J.(1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. • Panevová, J.(1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. • Panevová, J.(2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a specifika 2, Masarykova Univerzita, Brno, pp. 173-180. • Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) • Sgall, P. et al. (1986)The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia. CIL XVII, Prague, July 26, 2003 24

More Related