420 likes | 577 Views
Tvorba valenčního slovníku arabských sloves. PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK). Osnova. Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje
E N D
Tvorba valenčního slovníku arabských sloves PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK)
Osnova • Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Úvod • Valenční slovník nejfrekventovanějších sloves v moderní spisovné arabštině (Bielický and Smrž, 2008; 2009) • Zakotvení ve Funkčním generativním popisu – „arabský VALLEX“ • Použití • běžný uživatel jazyka • NLP systémy a aplikace • Pro arabštinu dosud chybí takto komplexní lexikografický zdroj
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Semantic Valence ofArabicVerbs (al-Qahtani, 1988; 2004) • 200 rámců pro nejfrekventovanější arabská slovesa • W. A. Cook – Case Grammar Matrix Model (1979) • propoziční pády („essential to theproposition“ → vynucené sémantickou valencí slovesa): • Agent (A), Experiencer (E), Benefactive (B), Object (O), Locative (L) • modální pády („optionaladjunctsofvirtuallyanypredication“→ volitelné prvky, které nejsou vynuceny sémantickou valencí slovesa): • Time, Manner, Instrument, Cause, Result, Purpose, outerLocative, outerBenefactive
W. A. Cook – Case Grammar Matrix • pádový rámec (case frame): • 1-3 propoziční pády • O obligatorní pro všechna slovesa (prší – prázdný hloubkový pád O) • E - B - L se vzájemně vylučují • O více než 1x v jenom rámci • pořadí pádu v rámci – na prvním místě povrchový Sub • později rozšíření o propoziční pád času (EssentialTime case (T))
Cookův revidovaný maticový model * Os – pád Objektu u stativních sloves Basic verbs – pouze A, O Experiential verbs – E, A, O Benefactive verbs – B, A, O Locative verbs – L, A, O
Skryté role (Covertroles) • skryté role hloubkového pádu na povrchové rovině (covert case roles): • částečně skryté (patrially covert) • vypustitelné (deletable) → fakultativní v FGD waṣafa Zaydun al-manẓara Zayd described the scene pádový rámec: waṣafAEO/E-del (Experiencer je vypuštěn) valenční rámec (FGP): ACT ADDR PAT
Skryté role (Covertroles) • zcela skryté (totally covert) • koreferenční – kumulace dvou rolí (FGD Ø) darasa Zaydun al-kitāba Zayd studie the book pádový rámec: darasaAEO/A=E (Agent je totožný s Experiencer) valenční rámec (FGP): ACT PAT • lexikalizované – některá role (Obj) inkorporována v sémantice slovesa camila Zaydun Zayd worked = Zayd did some work pádový rámec: camilaAO/O-lex (Objekt je lexikalizován) valenční rámec: ACT
Pilot ArabicPropbank (Palmeretal., 2008) • anotace sémantické informace do arabského korpusu (PennArabicTreebank) • dvě fáze anotace • vytvoření framesetů (rámců) pro jednotlivé lexikální jednotky (jednotlivé významy slovesa) → uchovány zvlášť • podle framesetů jsou anotovány jednotlivé korpusové výskyty slovesa • typy slovesných doplnění • sémanticky vynucená doplnění ARG0 až ARG4 – proměnné → ve framesetechjsoujim přiděleny sémantické role (experiencer, organizer, event, agent, theme…) • 19 volných doplnění (adjunctivearguments)
ArabicPropbank – famesety slovesa `aqām význam 1 význam 3 význam 2
SyntacticlexiconofArabicverbs (Loukiletal., 2008) • pouze povrchová syntax → není sémantika • struktura slovníku podle formátu LexicalMarkup Framework (ISO 24613) • slovník by měl obsahovat: • charakteristika sloves z hlediska intranzitivity/tranzitivity (přímé i nepřímé přes předložku) • morfematická realizace doplnění (akuzativ; předložka – pouze fī, can, li-, calā, bi-, `ilā, min) • syntaktická funkce doplnění (podmět, předmět) • příklad ve větě • význam • redundance • rozlišování mezi tzv. „slovesnou a jmennou větou“ (vliv tradičního arabského pohledu na syntax – rozdíl mezi VSO a SVO)
sloveso taḥarraka („pohnout se, pohybovat se“) framex framey
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Funkční generativní popis (FGP) • valence – schopnost autosémantického slova vázat se s dalšími slovy • FGP – závislostně orientovaný formalismus – člení popis jazyka do více rovin • valence souvisí s hloubkovou tektogramatickou rovinou ovšem i s rovinou morfematickou, kde se valenční doplnění realizují/nerealizují v podobě morfémů • typy slovesných doplnění • aktanty (vnitřní doplnění) – Aktor(ACT), Patient (PAT), Adresát (ADDR), Origo (ORIG), Efekt (EFF) • volná doplnění – místo, čas, směr, nástroj, příčina, způsob… • fakultativinost/obligatornost doplnění • hlavní inspirací metodologie VALLEXu a PDT-Vallexu
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Nástroje a zdroje • Korpusové zdroje • PragueArabicDependencyTreebank (PADT) • anotovaný korpus novinových textů - 1 mil. tokenů (připravovaná verze 2.0; Smrž etal., 2008) • tři roviny anotace – funkční morfologie, analytická rovina syntaxe, tektogramatická rovina • zdroj frekvence sloves • ArabicGigaword (Graff, 2007) • novinové texty – plain text • Corpus Linguae Arabicae (CLARA) (Zemánek, 2001) • cca 50 mil. slov – plain text • texty různého druhu • Tištěné slovníky • dvojjazyčné • arabské výkladové
Nástroje a zdroje • ElixirFM (Smrž, 2007) • implementace funkční arabské morfologie • základem elektronická lexikální databáze z Buckwalterova arabského morfologického analyzátoru (Buckwalter, 2002) • opravená a rozšířená verze ElixirFM (Smrž andBielický, 2009) • propojení s morfologickou rovinou PADT; práce na propojení s analytikou a tektogramatikou • TrEd • anotační prostředí pro ElixirFM • tvorba valenčních rámců/závislostních stromů
ElixirFM Online Interface(http://quest.ms.mff.cuni.cz/cgi-bin/elixir/index.fcgi) • Resolve • tokenizace a morfologická analýza • Inflect • deklinace a konjugace • Derive • derivace jmenných tvaru od sloves (pasivní a aktivní participium, podstatné jméno slovesné • Lookup • vyhledávání derivátů stejného slovního kořene/kmene • vyhledávání podle angličtiny
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Charakteristika arabského slovesa • konsonantní kořen • diskontinuitní morfém nesoucí význam • morfém vokalizace • afix – prefix, sufix, infix • kořen + vokalizace (+ afix) → kmen • arabské sloveso • trojkonsonantní/čtyřkonsonantní kořen • jednoduchý slovesný kmen → kořen + vokalizace • rozšířený slovesný kmen → kořen + vokalizace + afix/dloužení vokálu
morfosémantické vzory a jejich korelace • I jednoduchý slovesný kmen činnostní – KaTaBpsát (často tranzitivní) přechodný stav – FaRiḤradovat se (někdy tranzitivní) trvalý stav – ḤaSuNbýt hezký (intranzitivní) • rozšířený slovesný kmen IIḤaSSaNzlepšit (tranz.) – faktitativní/kauzativní, intenzivní, deklarativní, denom. III QāTaLbojovat (tranz.) – objektový, konfrontační, denominativní IV `aNTaĞvyrobit (tranz.) – faktitivní/kauzativní, časový/prostorový aspekt, denom. V taḤaSSaNzlepšit se (intranz.) – reflexivní, pasivní, denominativní VI taRāSaL dopisovat si (intranz.) – reciproční, postupný děj, předstírání stavu VII inQaSaM být rozdělen (intranz.) – pasivní, reflexivní VIII iḪtaBaRprověřit si (tranz./intranz.) – reflexivní, dativní, pasivní, denominativní IX iSWaDDzčernat, být černý (intranz.) – od adjektiv – stav/změna stavu X istaḪBaRinformovat se (tranz.) – deziderativní, reflexivní, estimativní, denominativní
Charakteristika arabského slovesa • není infinitiv • vid – rozlišen formou konjugace nebo složeným tvarem → jinak spíše aktionsart • konjugace • sufigovaná (perfektum – ukončený děj) • prefigovaná (imperfektum – průběh, opakování) • mody – indikativ, subjunktiv, jusiv, energikus, imperativ • verbonominální deriváty • participium aktivní a pasivní, verbální substantivum • tzv. introflektivní pasivum (velmi produktivní) – pravidelnou změnou vokalizace • KaTaBnapsal → KuTiBbyl napsán • funkce: • pasivum • impersonální konstrukce
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Reprezentace valence v ElixirFM • závislostní strom • trojkonzonantní/čtyřkonzonantní slovesný lexém • lemma (3.os. sg. perf.) • lexikální jednotky – jednotlivé významy slovesa definované v podobě valenčního rámce • valenční rámec • funktory (FGP) • omezení na morfematické vyjádření slovesného doplnění • obligatornost/fakultativnost doplnění
Morfematické vyjádření slovesného doplnění • explicitně zachycené formy • pádové formy: 1- (nominativ), 2- (genitiv), 4- (akuzativ) • determinace/indeterminace: -I/-D • konstrukce s adjektivy: A- • forma předložky: bi-, li-, fī, can, calā, `ilā, min, maca, ḥattā, munḏu, bayna, dūna, ḥawla, taḥta… • vedlejší věty obsahové: `inna, `anna, `an, mā `iḏā • část frazému • podstatné jméno slovesné (maṣdar) • slovesné imperfektum - není jasné, o jaký typ doplnění se jedná → EFF vs. COMPL
závislá část frazému انشرح له صدري inšaraḥa la-hu ṣadrī potěšila-se z-toho.CAUS hruď-moje.DPHR Potěšilo mě to DPHR (ḫāṭir|qalb|ṣadr) CAUS (li-)
Morfematické vyjádření slovesného doplnění • implicitně zachycené formy, např.: • LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa… • DIR1 (směr od) – min, min calā, min taḥti, min warā’i, min fawqi… • CAUS (příčina) – li-, bi-sababi, bi-faḍli, min `ağli, natīğatan li-, bi-ḥukmi, li-`anna…)
implicitně zachycená forma LOC بدء الحرب وضعه أمام أمر واقع bad`u `l-ḥarbi waḍaca-hu `amāma `amrin wāqicin začátek války.ACT položil-jeho.PAT před věc reálnou.LOC Začátek války ho postavil před hotovou věc ACT PAT (4-) LOC • LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa…
Slovesa typu „prší“ v arabštině تمطر { السماء } tumṭiru [`s-samā`u] vyvolávají-déšť nebesa.ACT Prší • pršet – valenční rámec: Ø • arabština – vždy ACT, i když je vypuštěný
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Stav projektu – první fáze • vytvořeno 3.500 valenčních rámců • 2.000 vytvořeno automaticky – informace o intranzitivitě v Buckwalterovi • 1.500 vytvořeno manuálně • hlavně základní významy sloves • další kontrola a zjemňování rámců • studium literatury → upřesňování a dotváření teoretických východisek
Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly
Další úkoly • anotace méně častých významů sloves a frazeologie • dořešení statutu některých problematických skupin sloves (modální, pomocná, impersonální) • zavedení informace o pasivizaci, reciprocitě, frekvenci výskytu (PADT) a sémantické třídě • doplnění/propojení s korpusovými příklady • korelace mezi valenčními rámci primárních a odvozených sloves (?) • dopracování a zjemnění českých glos • možnost promítnutí valenčního rámce slovesa do participií a verbálního substantiva • konzultace problematických otázek s rodilým mluvčím • budoucnost – napojit ElixirFM na ArabicWordnet
Odkazy AL-QAHTANI, DuleimMasoud. Semantic Valence ofArabicVerbs. Beirut : LibraireduLibanPublishers, 2005. BIELICKÝ, Viktor, SMRŽ, Otakar. BuildingtheValency Lexicon ofArabicVerbs. In Proceedingsofthe 6thConference on LanguageResources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008. BIELICKÝ, Viktor, SMRŽ, Otakar. EnhancingtheElixirFM Lexicon withVerbalValencyFrames. In Proceedings of the Second International Conference on Arabic Language Resources and Tools. Cairo, Egypt, April 22-23, 2009. BUCKWALTER, Tim. BuckwalterArabicMorphologicalAnalyzerVersion 1.0. LDC2002L49, 2-58563-257-0, 2002. COOK, Walter A. Case Grammar : Developementofthe Matrix Model (1970-1978). Washington, D.C. : Georgetown University Press, 1979. GRAFF, David. ArabicGigawordThirdEdition. LDC2007T40, 1-58563-460-3, 2007. LOUKIL, Noureddine, HADDAR, Kais, BEN HAMADOU, Abdelmajid. Towards a Syntactic Lexicon ofArabicVerbs. In HLT & NPL withintheArabicWorld : ArabicLanguage & LocalLanguagesProcessing – Status Updates & Prospects. LREC 2008 Conference, Marrakech, Morocco, 2008. PALMER, Martha, BABKO-MALAYA, Olga, BIES, Ann, DIAB, Mona, MAAMOURI, Mohammed, MANSOURI, Aousand ZAGHOUANI, Wajdi. A Pilot ArabicPropbank. In Proceedingsofthe 6thConference on LanguageResources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008. SMRŽ, Otakar. FunctionalArabicMorphology : FormalSystemandImplementation. PhD thesis, Charles University in Prague, 2007. SMRŽ, Otakar, BIELICKÝ, Viktor. ElixirFM : High-levelImplementationofFunctionalArabicMorphology. http://sourceforge.net/projects/elixir-fm/. 2009. SMRŽ, Otakar, BIELICKÝ, Viktor, KOUŘILOVÁ, Iveta, KRÁČMAR, Jakub, HAJIČ, Jan and ZEMÁNEK, PETR. PragueDependencyArabicTreebank : A Word on theMillionWords. In Proceedingsofthe 6thConference on LanguageResources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008. ZEMÁNEK, Petr. CLARA (Corpus Linguae Arabicae) : AnOverview. In ACL 2001. Workshop Proceedings on ArabicLanguageProcesing : Status andProspects. Toulouse, France, 2001, p. 111-112.