460 likes | 732 Views
Semantica și pragmatica limbajului natural. Daniela Gîfu daniela.gifu@info.uaic.ro. Cursul nr. 5. Tezaur lingvistic. Tezaur lingvistic – Definiție. - un tip de dicţionar în care cuvintele cu sensuri asemănătoare sunt grupate la un loc (cf. Online Cambridge Dictionary).
E N D
Semanticași pragmatica limbajului natural Daniela Gîfu daniela.gifu@info.uaic.ro
Cursul nr. 5 Tezaurlingvistic
Tezaur lingvistic – Definiție • - un tip de dicţionar în care cuvintele cu sensuri asemănătoare sunt grupate la un loc (cf. Online Cambridge Dictionary). • - totalitatea cuvintelor unei limbi (fr., lat., thesaurus) – cf. www.archeus.ro,sursă neoficială?! • - o «Catedrală a Neamului» în materie de lingvistică, deşi, în esenţă, aş putea spune că nu este vorba doar de lingvistică, ci şi de patrimoniul spiritual în sensul cel mai larg şi mai adânc", George Pruteanu, despre "Dicţionarul Academiei".
Tezaurul Roget - istoric • http://thesaurus.com/browse/home • 1805 - Peter Mark Roget, un medic, a început să clasifice în scristermenii și expresiile pentru uzul său personal. • 1852 – prima publicare a Tezaurului Roget (15.000 cuvinte). • a cunoscut adăugiri succesive (urmaşi ai lui Roget, alţi specialişti), ultima ediție, 1987, peste 1.250.000 de cuvinte(v. Kendall, 2008).
Tezaurul Roget - descriere • organizarea materialului lingvistic - în clase; • fiecare clasă - o ierarhie internă, asemănătoare unui arbore cu multiple ramificaţii pentru grupuri de sensuri. • scopul – să faciliteze găsirea cuvintelor înrudite semantic (sinonime, antonime, hiperonime, hiponime)şi să ajute la alegerea celui mai potrivit cuvânt pentru exprimarea sensului dorit de utilizator.
Tezaurul VerbNet • VerbNet (Kipper , 2005) - una dintre resursele lexicale dezvoltate pentru limba engleză. Este un lexicon independent, care oferă informații semantice și sintactice despre verbele englezesti. • VerbNet constă în clase verbale Levin (Levin, 1993); mapări la Princeton WordNet (WordNet.Pr ) ( Fellbaum, 1998) . • în special pentru cadre semantice(verbele aparțin mai multor clase VerbNet, fiecare clasă corespunde unui sens difierit al verbului). • un clasificator VerbNet - esențial pentru aplicațiile curente folosind resurse;poate constitui baza pentru un sistem de analiză semantică profundă. • etichetarea cadrelor verbale - o precizie de 88.67%, cu verbe MultiClass, care este o reducere a erorii cu 49% a celor mai frecvente clase de bază.
Descriere VerbNet • http://verbs.colorado.edu/~mpalmer/projects/verbnet.html VerbNetAnnotationGuidelines 1. WhyVerbs? 2. VerbNet:A VerbClassLexicalResource 3. VerbNetContents a. The Hierarchy b. SemanticRoleLabelsandSelectionalRestrictions c. SyntacticFrames d. SemanticPredicates 4. Annotation Guidelines a. DoestheInstanceFittheClass? b. AnnotatingVerbsRepresentedin MultipleClasses c. Thingsthatlooklikeverbsbutaren’t: Nouns; Adjectives d. Auxiliaries e. LightVerbs f. FigurativeUsesofVerbs
VerbNet:AVerb Class LexicalResource • 5800 verbe și grupuri verbale (En) • 270 clase verbale, după clasificarea lui BethLevin: o sg. clasă de verbe – locativealternation(sprayverbs)orthecausativealternation(wrinkleverbs)etc. Ex: spray class 9.7 (scatter,pump,hang,drizzle, cram -verbe care implică același tip de acoperire semantică).
Componentele unei clase verbale VerbNet Ex: clasa 9.7 – nu conține membri, dar cu cadre de la alte verbe
Roluri semantice și restricții Roluri semantice - "cine, ce, cum, când și unde?“ Ex: a. Sandyshatteredtheglass. b. Theglassshattered. a. [Sandy]shattered[theglass.] [AGENT] [PATIENT] b. [Theglass] shattered. [PATIENT] Restricțiile pot fi combinate cuoperatori ca: (OR) și (AND). Aceste restricții indica existenta (+) sau absența (-) de proprietăți, cum ar fi:[CONCRETE],[ANIMATE], [ORGANIZATION] etc. – o parte a etichetei rolului semantic al unei clase specifice.
Roluri semantice și restricții Rolul semantic Stimulus – ex. în ambele clase verbale: peer-30.3and addict-96
Alinierea la alte limbi - Brazilia • Dezoltare - Carolina Evaristo Scarton & Sandra Maria Aluísio, Center of Computational Linguistics (NILC), Universidade de São Paulo (USP). • De ce?: construirea de interpretoare semantice (Shi și Mihalcea, 2005); dezambiguizare de sens (Girju et al, 2005) etc. • Studii lingvistice (Cancado, 1996, Ávila, 2006, Ciriaco, 2007, Moraes, 2008, Godoy, 2009; Amaral, 2010 ). • scop - crearea VerbNet - Br, o resursă lexicală pentru portugheză braziliană, cu aceleași caracteristici ca la VerbNet. • tehnici de dezvoltare - învățare automată pe un corpus de antrenare (Merlo et al, 2002; Joanis și Stevenson, 2003; Ferrer, 2004; Kipper et al, 2006 etc.) și reutilizarea resurselor dezvoltate în altă limbă (engleză), v. clasele Levin (Jackendoff , 1980; Merlo et al , 2002; Du et al , 2010).
Linkuri – WordNet – Br. • VerbNet - A Class-Based Verb Lexicon: http://verbs.colorado.edu/~mpalmer/projects/verbnet.html • Unified Verb Index: http://verbs.colorado.edu/verb-index/index.php • Automatic extraction of SCF for Portuguese:http://143.107.232.109/scf_port/
Alinierea la alte limbi - România • România • Implementarea – FII & Academia Română. • Unde? – a început la Tabăra de toamnă EUROLAN-2013, Ipotești. • Temă – clasă. Se instalează NotePad++ EDTLR – 85.122.23.96 alinierea cadrelor din clasificatorul de verbe VerbNet (En) la VerbNet (Ro)
Referințe bibliografice • Kendall, Joshua C.(2008)The Man Who Made Lists : Love, Death, Madness,and the Creation of Roget’s Thesaurus, G. P. Putnam’s Son, New York. • Barbu Mititelu, V., Ceauşu, Al., Ion, R.,Irimia, E., Ştefănescu, D., Tufiş, D. (2009) Resurse lingvistice pentru un sistem de întrebare-răspunspentru limba română, Revista Română de Interacţiune Om-Calculator 2, pp. 1-17. • Amaral, L. L. (2010): O Verbos de Modo de Movimento no Português Brasileiro. 53f. Trabalho de Conclusão de Curso (Bacharel em Letras) – Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte. • Ávila, M. C. (2006): Propriedades semânticas e alternâncias sintáticas do verbo: um exercício exploratório de delimitação do significado. 114f. Dissertação (Mestrado em Letras) – Faculdade de Ciências e Letras, Universidade Estadual Paulista, Araraquara.
Referințe bibliografice • Cançado, M. (1996): Verbos Psicológicos: Análise Descritiva dos Dados do Português Brasileiro. Revista de Estudos da Linguagem, v. 4, n. 1, pp. 89-114. • Ciríaco, L. S. (2007): A alternância causativo/ergativa no PB: restrições e propriedades semânticas. 114f. Dissertação (Mestrado em Linguística) – Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte. • Fellbaum, C. (1998). WordNet: An electronic lexical database. MIT Press. Cambridge, Massachusetts. • Ferrer, E. E. (2004): Towards a semantic classification of Spanish verbs based on subcategorisation information. In Proceedings of the Workshop on Student research (ACLstudent 2004), in conjunction with ACL 2004. Barcelona, Espanha.
Referințe bibliografice • Girju, R., Roth, D. e Sammons, M. (2005): Token-level disambiguation of VerbNet classes. In Proceedings of Interdisciplinary Workshop on the Identification and Representation of Verb Features and Verb Classes. Saarbruecken, Germany. • Godoy, L. (2009): Verbos Psicológicos: Análise Descritiva dos Dados do Português Brasileiro. ALFA – Revista de Linguística, v. 53, n. 1, pp. 283-299. • Jackendoff, R. (1990): Semantic Structures. MIT Press. Cambridge, Massachusetts. • Joanis, E. e Stevenson, S. (2003): A general feature space for automatic verb classification. In Proceedings of the 10th conference on European chapter of the Association for Computational Linguistics (EACL 2003). Budapest, Hungria, pp. 163-170.
Referințe bibliografice • Kipper, K. (2005): Verbnet: A broad coverage, comprehensive verb lexicon. 146f. Ph.D. Thesis (Philosophy) - University of Pennsylvania, USA. • Kipper K., Korhonen A., Ryant N. e Palmer, M. (2006): Extending VerbNet with Novel Verb Classes. In Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC 2006). Genoa, Itália. • Levin, B. (1993): English Verb Classes and Alternation, A Preliminary Investigation. The University of Chicago Press. • Merlo, P., Stevenson, S., Tsang, V. e Allaria, G. (2002): A multilingual paradigm for automatic verb classification. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002). Philadelphia, PA, USA, pp. 207-214.
Referințe bibliografice • Moraes, H. R. (2008): Aspectos sintaticamente relevantes do significado lexical: estudo dos verbos de movimento. 171f. Tese (Doutorado em Linguística e Língua Portuguesa) – Faculdade de Ciências e Letras, Universidade Estadual Paulista, Araraquara. • Shi, L. e Mihalcea, R. (2005): Putting pieces together: Combining FrameNet, VerbNet and WordNet for robust semantic parsing. In Proceedings of 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2005). Cidade do México, México, pp. 99-110. • Zanette, A. (2010): Aquisição de Subcategorization