1 / 13

Aprendizagem automática de informações lexicais

Aprendizagem automática de informações lexicais. Coordenação: Violeta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ) Bolsistas:

ahanu
Download Presentation

Aprendizagem automática de informações lexicais

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ) Bolsistas: Milena de Uzeda Garrão 01/05/07-30/11/07 (PUC-RJ) Seimou Hamilton Oshiro 01/05/06-30/04/07 (PUC-RJ)

  2. Objetivos propostos no projeto: • (a) a elaboração de recursos computacionais (dicionário de compostos nominais, verbais e prepositivos) e de ferramentas de reconhecimento e classificação semântica automática de nomes próprios e de criação de ontologias; • (b) a avaliação da eficácia dessas ferramentas estatísticas versus ferramentas semi-automáticas.

  3. Publicações FREITAS, Maria Cláudia de, QUENTAL, V. S. D. B.Subsídios para a elaboração automática de ontologias In: XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana, 2007, Rio de Janeiro.Anais do XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana. Rio de Janeiro: Sociedade Brasileira de Computação, 2007. p.1585 - 15944.  FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B.A Machine Learning Approach to the Identification of Appositives In: SBIA/IBERAMIA 2006, Ribeirão Preto.Lecture Notes on ArtificiaI Inteligence series. Springer-Verlag, 2006. 5.  OLIVEIRA, Cláudia Figueiredo de,FREITAS, Maria Cláudia de, SANTOS, C., QUENTAL, V. S. D. B., LEME, R., Souza, Lucas . A Set of NP-extraction rules for Portuguese: defining and learning In: 7th International Workshop, PROPOR 2006, Itatiaia.Computational Processing of the Portuguese Language- Lecture Notes in Computer Science. Springer-Verlag, 2006. v.3960. FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B.Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006 In: Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006, 2006, Ribeirão Preto.Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006. Springer-Verlag, 2006. v.1. QUENTAL, V. S. D. B.Os sintagmas preposicionais em SNs In: V Congresso Internacional da ABRALIN, 2007, Belo Horizonte.Anais do V Congresso Internacional da ABRALIN. Belo Horizonte: , 2007. v.1. OLIVEIRA, C. M. G. M. ; XEXEO, J. A. M. ; CARVALHO, C. A. . Clustering and Categorization Applied to Cryptanalysis. Cryptologia, v. 30, p. 266-280, 2006. 2. OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Classes de palavras e etiquetagem na Lingüística Computacional. Calidoscópio (UNISINOS), v. 4:3, p. 179-188, 2006. OLIVEIRA, C. M. G. M. ; GARRAO, M. U. ; FREITAS, M. C. ; DIAS, M. C. P. . Corpus-based Compositionality. In: 7th Workshop on Computational Processing of Written and Spoken Portuguese, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006.

  4. (cont. publicações) • OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Nominal Complementation Rules Applied to Semantic Role Labelling. In: V Congresso Internacional da Associação Brasileira de Lingüística, 2007, Belo Horizonte. Caderno de Resumos do V Congresso Internacional da Associação Brasileira de Lingüística, 2007. v. 1. p. 416-417. 2. OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Classificação Semântica das Preposições Essenciais do Português. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumos do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. 3. OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Um Modelo de Sintagma Nominal Lexical para Aplicações Computacionais. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumo do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. • Garrão, M., M.C. Dias. The corpus never lies: a statistical approach for the identification of verbal collocations. In Proceedings of Collocations and Idioms 1: Papers from the First Nordic Conference on Syntactic Freezes. Joensuu, May 19-20, 2006 http://cc.joensuu.fi/linguistics/idioms2006/contents.shtml • Garrão, M. Oliveira, C. ; Freitas, M. C. ; Dias, M. C. P. Corpus-Based Compositionality. In: PROPOR 2006 - 7th International Workshop - Computational Processing of the Portuguese Language, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006. p. 268-271. http://www.springerlink.com/content/0250355137806586/ • Garrão, M. U. Lingüística de Corpus: o lugar da fusão entre Semântica e Pragmática. Calidoscópio, Unisinus, Vol. 4, p. 135-140, 2006.

  5. Teses e dissertações • Maria Claudia de Freitas. Elaboração automática de ontologias de domínio: discussão e resultados.Tese (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. 2007. • Claudia Maria Oliveira. O Substantivo-suporte: Critérios Operacionais de Caracterização. Doutorado em Letras. Pontifícia Universidade Católica do Rio de Janeiro, PUC/RJ, Brasil. , 2006. • Garrão, M. O corpus não mente jamais: sobre a identificação e uso de expressões multivocabulares do tipo Verbo mais Sintagma Nominal. Tese de Doutorado inédita apresentada no Programa de Pós-Graduação de Estudos da Linguagem do Departamento de Letras da PUC-Rio, 2006. • Liliana Paola Mamani Sanchez. Atribuição de Papéis Semânticos a Argumentos de Nominalizações: um método semi-automático. 2007. Dissertação (Mestrado em Engenharia de Sistemas - Informatica) - Instituto Militar de Engenharia, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. Orientador: Claudia Maria Garcia Medeiros de Oliveira. EM ANDAMENTO • Nuno Caminada. Reconhecimento automático de expressões multivocabulares que formam Spreps. Dissertação (Sistemas e Computação) - Instituto Militar de Engenharia .Início 2007; defesa: junho 2008 • Mauro Rebello. Elaboração de dicionário eletrônico de palavras compostas. Iniciação científica (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. Início 2006.

  6. Prepoly • 3 listas: • a) pp (1400 itens), com a informação de uso adjetival ou adverbial. Checar, corrigir, aumentar essa lista e incluir marcadores estatísticos para usos preferenciais como MWE, e marcadores de precaução para casos de leitura como MWE e não MWE. • b) pp ADV (270 itens), com itens que o Palavras trata como advérbios não ambíguos. Pode ser fundida com a 1ª. lista, com o mesmo tipo de markup/distinções. • As duas listas têm tags secundárias de valência potencial e tipo semântico, não exaustivas, mas que seriam desejáveis para todos os casos (locativo, diretivo, temporal, preposition-governing etc.) • c) pp VPP (980 itens), lista de PPs governadas por verbos-suporte, que estão inativas porque não têm informação suficiente. • Objetivos: • checar, classificar, modificar e suplementar essas listas com base em dados de corpus, acrescentando informação de distinção contextual e freqüência • tentar dar uma forma consistente e machine-readable para essas informações

  7. Exemplo de listas • a=sério PP <adv> • a=sós PP <adv> • a=súbitas PP <adv> • a=talho PP <adv> • a=tempo PP <adv> • a=tempo=e=a=hora PP <adv> • a=tempo=e=a=horas PP <adv> • a=tento PP <adv> • a=tinir$$ PP <adj> • a=tino PP <adv> • a=tiracolo PP <adv> • a=toda$$ PP <adv> • a=toda=a=brida PP <adv> • a=toda=a=força PP <adv> • a=toda=a=pressa PP <adv> • a=toda=a=prova PP <adj> • a=toda=hora PP <adv> • a=todo=o=pulso PP <adv>

  8. PREPOSICOES • >> ========================== • >> preposicao: senão -> 113 • >> preposicao: antes -> 511 • >> preposicao: devolvido -> 20 • >> preposicao: diante -> 3 • >> preposicao: via -> 1253 • >> preposicao: como -> 60116 • >> preposicao: pera -> 15 • >> preposicao: desde -> 16318 • >> preposicao: malgrado -> 16 • >> preposicao: at -> 62 • >> preposicao: ponto -> 9 • >> preposicao: contrariamente -> 1 • >> preposicao: ante -> 317 • >> preposicao: salvo -> 167 • >> preposicao: com -> 230612 • >> preposicao: exceto -> 499 • >> preposicao: contra -> 27702 • >> preposicao: tirante -> 6 • >> preposicao: trás -> 193 • >> preposicao: pra -> 1364 • >> preposicao: entre -> 44387 • >> preposicao: mediante -> 254 • >> preposicao: per -> 452 • >> preposicao: em -> 909243

  9. >> RESULTADOS PRELIMINARES - PARÂMETRO = 2,576: • >> --------------------------------------- • >> por;meio ==>T-Test result==> 63.53607570364274 • >> até;agora ==>T-Test result==> 48.226063527393784 • >> de;ontem ==>T-Test result==> 43.609299957374404 • >> até;hoje ==>T-Test result==> 36.67846071336202 • >> de;aí ==>T-Test result==> 29.89378097605234 • >> por;enquanto ==>T-Test result==> 28.950263532223858 • >> há;muito ==>T-Test result==> 25.836297470626864 • >> até;ontem ==>T-Test result==> 25.14490811635413 • >> por;trás ==>T-Test result==> 25.11867050573179 • >> desde;então ==>T-Test result==> 24.813421835192234 • >> de;hoje ==>T-Test result==> 24.076928032530628 • >> para;cá ==>T-Test result==> 22.77264239678492 • >> há;cerca ==>T-Test result==> 22.701200406075312 • >> por;aí ==>T-Test result==> 22.152210663751735 • >> de;anteontem ==>T-Test result==> 22.083095153007193 • >> por;acaso ==>T-Test result==> 21.881518149185847 • >> por;aqui ==>T-Test result==> 20.33335778015257 • >> com;cerca ==>T-Test result==> 18.61224155443909

  10. com;direito;ADJ M S ==> 463 • de;imóvel;ADJ M/F P ==> 450 • com;grande;ADJ F S ==> 446 • de;curto;ADJ M S ==> 429 • de;alto;ADJ M S ==> 426 • em;segundo;ADJ M S ==> 391 • em;comum;ADJ M/F S ==> 377 • com;alto;ADJ F S ==> 360 • de;1º;ADJ M S ==> 353 • em;1º;ADJ M S ==> 340 • de;grande;ADJ F P ==> 320 • com;grande;ADJ M S ==> 316 • de;jovem;ADJ M/F P ==> 316 • de;morto;ADJ M P ==> 316 • em;baixo;ADJ F S ==> 313 • em;pleno;ADJ F S ==> 309 • em;terceiro;ADJ M S ==> 280 • em;pleno;ADJ M S ==> 272 • em;bom;ADJ F S ==> 254 • de;longo;ADJ F S ==> 251 • de;último;ADJ F S ==> 231 • de;grande;ADJ M P ==> 229 • em;primeiro;ADJ F S ==> 225

  11. ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @¤PRP <sam-> @N< @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @N< • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @ADVL> • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @ADVL> • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @ADVL> • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL • ao=máximo [ao=máximo] ADV @>N • ao=máximo [ao=máximo] ADV @>P • ao=máximo [ao=máximo] ADV @<ADVL

  12. de;público;ADJ M S ==>Chi-Square result==> 1536 • de;novo;ADJ F P ==>Chi-Square result==> 1532 • em;segundo;ADJ F S ==>Chi-Square result==> 1493 • em;grande;ADJ M/F P ==>Chi-Square result==> 1369 • em;particular;ADJ M/F S ==>Chi-Square result==> 1325

More Related