130 likes | 266 Views
Aprendizagem automática de informações lexicais. Coordenação: Violeta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ) Bolsistas:
E N D
Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ) Bolsistas: Milena de Uzeda Garrão 01/05/07-30/11/07 (PUC-RJ) Seimou Hamilton Oshiro 01/05/06-30/04/07 (PUC-RJ)
Objetivos propostos no projeto: • (a) a elaboração de recursos computacionais (dicionário de compostos nominais, verbais e prepositivos) e de ferramentas de reconhecimento e classificação semântica automática de nomes próprios e de criação de ontologias; • (b) a avaliação da eficácia dessas ferramentas estatísticas versus ferramentas semi-automáticas.
Publicações FREITAS, Maria Cláudia de, QUENTAL, V. S. D. B.Subsídios para a elaboração automática de ontologias In: XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana, 2007, Rio de Janeiro.Anais do XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana. Rio de Janeiro: Sociedade Brasileira de Computação, 2007. p.1585 - 15944. FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B.A Machine Learning Approach to the Identification of Appositives In: SBIA/IBERAMIA 2006, Ribeirão Preto.Lecture Notes on ArtificiaI Inteligence series. Springer-Verlag, 2006. 5. OLIVEIRA, Cláudia Figueiredo de,FREITAS, Maria Cláudia de, SANTOS, C., QUENTAL, V. S. D. B., LEME, R., Souza, Lucas . A Set of NP-extraction rules for Portuguese: defining and learning In: 7th International Workshop, PROPOR 2006, Itatiaia.Computational Processing of the Portuguese Language- Lecture Notes in Computer Science. Springer-Verlag, 2006. v.3960. FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B.Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006 In: Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006, 2006, Ribeirão Preto.Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006. Springer-Verlag, 2006. v.1. QUENTAL, V. S. D. B.Os sintagmas preposicionais em SNs In: V Congresso Internacional da ABRALIN, 2007, Belo Horizonte.Anais do V Congresso Internacional da ABRALIN. Belo Horizonte: , 2007. v.1. OLIVEIRA, C. M. G. M. ; XEXEO, J. A. M. ; CARVALHO, C. A. . Clustering and Categorization Applied to Cryptanalysis. Cryptologia, v. 30, p. 266-280, 2006. 2. OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Classes de palavras e etiquetagem na Lingüística Computacional. Calidoscópio (UNISINOS), v. 4:3, p. 179-188, 2006. OLIVEIRA, C. M. G. M. ; GARRAO, M. U. ; FREITAS, M. C. ; DIAS, M. C. P. . Corpus-based Compositionality. In: 7th Workshop on Computational Processing of Written and Spoken Portuguese, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006.
(cont. publicações) • OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Nominal Complementation Rules Applied to Semantic Role Labelling. In: V Congresso Internacional da Associação Brasileira de Lingüística, 2007, Belo Horizonte. Caderno de Resumos do V Congresso Internacional da Associação Brasileira de Lingüística, 2007. v. 1. p. 416-417. 2. OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Classificação Semântica das Preposições Essenciais do Português. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumos do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. 3. OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Um Modelo de Sintagma Nominal Lexical para Aplicações Computacionais. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumo do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. • Garrão, M., M.C. Dias. The corpus never lies: a statistical approach for the identification of verbal collocations. In Proceedings of Collocations and Idioms 1: Papers from the First Nordic Conference on Syntactic Freezes. Joensuu, May 19-20, 2006 http://cc.joensuu.fi/linguistics/idioms2006/contents.shtml • Garrão, M. Oliveira, C. ; Freitas, M. C. ; Dias, M. C. P. Corpus-Based Compositionality. In: PROPOR 2006 - 7th International Workshop - Computational Processing of the Portuguese Language, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006. p. 268-271. http://www.springerlink.com/content/0250355137806586/ • Garrão, M. U. Lingüística de Corpus: o lugar da fusão entre Semântica e Pragmática. Calidoscópio, Unisinus, Vol. 4, p. 135-140, 2006.
Teses e dissertações • Maria Claudia de Freitas. Elaboração automática de ontologias de domínio: discussão e resultados.Tese (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. 2007. • Claudia Maria Oliveira. O Substantivo-suporte: Critérios Operacionais de Caracterização. Doutorado em Letras. Pontifícia Universidade Católica do Rio de Janeiro, PUC/RJ, Brasil. , 2006. • Garrão, M. O corpus não mente jamais: sobre a identificação e uso de expressões multivocabulares do tipo Verbo mais Sintagma Nominal. Tese de Doutorado inédita apresentada no Programa de Pós-Graduação de Estudos da Linguagem do Departamento de Letras da PUC-Rio, 2006. • Liliana Paola Mamani Sanchez. Atribuição de Papéis Semânticos a Argumentos de Nominalizações: um método semi-automático. 2007. Dissertação (Mestrado em Engenharia de Sistemas - Informatica) - Instituto Militar de Engenharia, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. Orientador: Claudia Maria Garcia Medeiros de Oliveira. EM ANDAMENTO • Nuno Caminada. Reconhecimento automático de expressões multivocabulares que formam Spreps. Dissertação (Sistemas e Computação) - Instituto Militar de Engenharia .Início 2007; defesa: junho 2008 • Mauro Rebello. Elaboração de dicionário eletrônico de palavras compostas. Iniciação científica (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. Início 2006.
Prepoly • 3 listas: • a) pp (1400 itens), com a informação de uso adjetival ou adverbial. Checar, corrigir, aumentar essa lista e incluir marcadores estatísticos para usos preferenciais como MWE, e marcadores de precaução para casos de leitura como MWE e não MWE. • b) pp ADV (270 itens), com itens que o Palavras trata como advérbios não ambíguos. Pode ser fundida com a 1ª. lista, com o mesmo tipo de markup/distinções. • As duas listas têm tags secundárias de valência potencial e tipo semântico, não exaustivas, mas que seriam desejáveis para todos os casos (locativo, diretivo, temporal, preposition-governing etc.) • c) pp VPP (980 itens), lista de PPs governadas por verbos-suporte, que estão inativas porque não têm informação suficiente. • Objetivos: • checar, classificar, modificar e suplementar essas listas com base em dados de corpus, acrescentando informação de distinção contextual e freqüência • tentar dar uma forma consistente e machine-readable para essas informações
Exemplo de listas • a=sério PP <adv> • a=sós PP <adv> • a=súbitas PP <adv> • a=talho PP <adv> • a=tempo PP <adv> • a=tempo=e=a=hora PP <adv> • a=tempo=e=a=horas PP <adv> • a=tento PP <adv> • a=tinir$$ PP <adj> • a=tino PP <adv> • a=tiracolo PP <adv> • a=toda$$ PP <adv> • a=toda=a=brida PP <adv> • a=toda=a=força PP <adv> • a=toda=a=pressa PP <adv> • a=toda=a=prova PP <adj> • a=toda=hora PP <adv> • a=todo=o=pulso PP <adv>
PREPOSICOES • >> ========================== • >> preposicao: senão -> 113 • >> preposicao: antes -> 511 • >> preposicao: devolvido -> 20 • >> preposicao: diante -> 3 • >> preposicao: via -> 1253 • >> preposicao: como -> 60116 • >> preposicao: pera -> 15 • >> preposicao: desde -> 16318 • >> preposicao: malgrado -> 16 • >> preposicao: at -> 62 • >> preposicao: ponto -> 9 • >> preposicao: contrariamente -> 1 • >> preposicao: ante -> 317 • >> preposicao: salvo -> 167 • >> preposicao: com -> 230612 • >> preposicao: exceto -> 499 • >> preposicao: contra -> 27702 • >> preposicao: tirante -> 6 • >> preposicao: trás -> 193 • >> preposicao: pra -> 1364 • >> preposicao: entre -> 44387 • >> preposicao: mediante -> 254 • >> preposicao: per -> 452 • >> preposicao: em -> 909243
>> RESULTADOS PRELIMINARES - PARÂMETRO = 2,576: • >> --------------------------------------- • >> por;meio ==>T-Test result==> 63.53607570364274 • >> até;agora ==>T-Test result==> 48.226063527393784 • >> de;ontem ==>T-Test result==> 43.609299957374404 • >> até;hoje ==>T-Test result==> 36.67846071336202 • >> de;aí ==>T-Test result==> 29.89378097605234 • >> por;enquanto ==>T-Test result==> 28.950263532223858 • >> há;muito ==>T-Test result==> 25.836297470626864 • >> até;ontem ==>T-Test result==> 25.14490811635413 • >> por;trás ==>T-Test result==> 25.11867050573179 • >> desde;então ==>T-Test result==> 24.813421835192234 • >> de;hoje ==>T-Test result==> 24.076928032530628 • >> para;cá ==>T-Test result==> 22.77264239678492 • >> há;cerca ==>T-Test result==> 22.701200406075312 • >> por;aí ==>T-Test result==> 22.152210663751735 • >> de;anteontem ==>T-Test result==> 22.083095153007193 • >> por;acaso ==>T-Test result==> 21.881518149185847 • >> por;aqui ==>T-Test result==> 20.33335778015257 • >> com;cerca ==>T-Test result==> 18.61224155443909
com;direito;ADJ M S ==> 463 • de;imóvel;ADJ M/F P ==> 450 • com;grande;ADJ F S ==> 446 • de;curto;ADJ M S ==> 429 • de;alto;ADJ M S ==> 426 • em;segundo;ADJ M S ==> 391 • em;comum;ADJ M/F S ==> 377 • com;alto;ADJ F S ==> 360 • de;1º;ADJ M S ==> 353 • em;1º;ADJ M S ==> 340 • de;grande;ADJ F P ==> 320 • com;grande;ADJ M S ==> 316 • de;jovem;ADJ M/F P ==> 316 • de;morto;ADJ M P ==> 316 • em;baixo;ADJ F S ==> 313 • em;pleno;ADJ F S ==> 309 • em;terceiro;ADJ M S ==> 280 • em;pleno;ADJ M S ==> 272 • em;bom;ADJ F S ==> 254 • de;longo;ADJ F S ==> 251 • de;último;ADJ F S ==> 231 • de;grande;ADJ M P ==> 229 • em;primeiro;ADJ F S ==> 225
ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @¤PRP <sam-> @N< @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @N< • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @ADVL> • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @ADVL> • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @ADVL> • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=máximo [ao=máximo] ADV @>N • ao=máximo [ao=máximo] ADV @>P • ao=máximo [ao=máximo] ADV @<ADVL
de;público;ADJ M S ==>Chi-Square result==> 1536 • de;novo;ADJ F P ==>Chi-Square result==> 1532 • em;segundo;ADJ F S ==>Chi-Square result==> 1493 • em;grande;ADJ M/F P ==>Chi-Square result==> 1369 • em;particular;ADJ M/F S ==>Chi-Square result==> 1325