540 likes | 652 Views
Reunião PLN-BR 2008. Renata Vieira. INTRODUÇÃO. A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica e de discurso. As atividades desenvolvidas e os resultados principais são apresentadas a seguir. Relatório PLN-BR 2008.
E N D
Reunião PLN-BR 2008 Renata Vieira
INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica e de discurso. As atividades desenvolvidas e os resultados principais são apresentadas a seguir.
Relatório PLN-BR 2008 1) Elaboração do esquema de anotação XCES Um esquema XML para anotação lingüística seguindo o padrão XCES foi definido para incorporar anotações de diferentes níveis lingüísticos (sintáticas, de correferência e estruturais). Arquivo de Codificação das palavras <struct type="token" from="0" to="1"> <feat name="id" value="t1"/> <feat name="base" value="A"/> </struct> .... <struct type="token" from="30" to="31"> <feat name="id" value="t7"/> <feat name="base" value="."/> </struct>
XCES Arquivo de Informações Morfológicas <struct type="pos"> <feat name="id" value="pos1"/> <feat name="class" value="art"/> <feat name="gender" value="F"/> <feat name="number" value="S"/> <feat name="canon" value="o"/> <feat name="complement" value="artd"/> <feat name="tokenref" value="t1"/> </struct> .... <struct type="pos"> <feat name="id" value="pos6"/> <feat name="class" value="adj"/> <feat name="gender" value="F"/> <feat name="number" value="P"/> <feat name="canon" value="verde"/> <feat name="tokenref" value="t6"/> </struct> Arquivo de Informações Estruturais Sintagmáticas <struct type="text" from="t1" to="t7"/> <struct type="sentence" from="t1" to="t7"/> <feat name="id" value="s1"/> <feat name="head" value="t5"/> </struct> ... <struct type="NP" from="t5" to="t6"> <feat name="id" value="phr3"/> <feat name="function" value="p"/> <feat name="head" value="t5"/> </struct>
XCES <struct type="markable" from="t1" to="t2"/> <feat name="id" value="markable_1"/> <feat name="status" value="new"/> </struct> ... <struct type="markable" from="t7" to="t7"/> <feat name="id" value="markable_2"/> <feat name="status" value="old"/> <feat name="is_anaph" value="indirect"/> <feat name="pointer" value="markable_1"/> </struct> Arquivo de Informações Anafóricas Arquivo de Relações Retóricas <struct type="segment" from="t1" to="t7"/> <feat name="id" value="seg1"/> <feat name="parent" value="gr1"/> <feat name="relname" value="elaboration"/> </struct> ... <struct type="group"/> <feat name="id" value="gr1"/> <feat name="parent" value="gr2"/> <feat name="relname" value="elaboration"/> <feat name="reltype" value="momonuc"/> </struct>
Relatório PLN-BR 2008 Um Relatório Técnico descrevendo o esquema elaborado foi escrito. Um pôster sobre questões relacionadas à anotação foi apresentado. (Souza et al., 2006).
Relatório PLN-BR 2008 2) Elaboração de conversores TigerXML para XCES Markables para XCES O conversor do formato RST não foi desenvolvido.
Relatório PLN-BR 2008 3) Elaboração de guias de instrução para anotação de correferência de corpus Diretrizes de anotação foram elaboradas para preparar anotadores para anotação de um sub-corpus do PLN-BR contendo informações de correferência. Um Relatório Técnico foi escrito (Coellho et al., 2006).
Relatório PLN-BR 2008 Construção de corpus anotado Summ-it Um sub-corpus foi construído e anotado com informações de correferência e relações retóricas (Collovini et al., 2007). O corpus serve de base para pesquisas desenvolvidas em dissertações de mestrado.
Summ-it O corpus é formado por 50 textos jornalísticos do caderno de ciências retirados da Folha de São Paulo e disponibilizado através do projeto PLN-BR. Construção do Corpus: Anotação Manual de Correferência 10 anotadores treinados Cada texto foi anotado por 2 pessoas e avaliado por um anotador sênior. Processamento pelo PALAVRAS: informações morfossintáticas Geração de Sumários Automáticos: GistSumm e SuPor-2 Construção de Sumários Manuais [Coelho, 2007] Anotação RST
Relatório PLN-BR 2008 5) Experimentos de resolução de correferência Alguns experimentos envolvendo corpus anotado com informação de correferência foram realizados (Collovini and Vieira, 2006; Collovini and Vieira, 2006a; Collovini and Vieira, 2006b). Esses experimentos apontam para a necessidade de balanceamento de corpus e inclusão de informação semântica para resolução de correferência. Uma próxima fase de anotação irá contemplar a anotação semântica com base no Frame-Net.
Relatório PLN-BR 2008 6) Experimentos com uso de informação semântica Experimentos de classificação de expressões referenciais foram realizados, avaliando os ganhos de aprendizado quando informações semânticas são consideradas (Coelho et al., 2006a; Vieira et al., 2006; Ribeiro et al., 2007).
Atividades previstas para 2008 1) Construção de interfaces para uso do Parser Palavras e conversores de formatos 2) Elaboração da documentação do conversor de formatos Tiger para XCES 3) Anotação Frame-Net do Summ-it
ACROPOS - Automatic Coreference ResOlution system for POrtugueSe José Guilherme Souza Renata Vieira
Objetivo Resolução Automática Correferência Aprendizado de Máquina: Árvores de Decisão Baseado no Trabalho de Soon et al. 2001 Primeira abordagem de resolução automática de correferência de sintagmas nominais de qualquer tipo para língua portuguesa. O sistema seleciona, classifica e agrupa as expressões para montagem das cadeias.
ACROPOS Resultados
ACROPOS Resultados - Balanceamento
ACROPOS Resultados: Análise das Cadeias
ONTOLP: CONSTRUÇÃO SEMI-AUTOMÁTICA DE ONTOLOGIAS A PARTIR DE TEXTOS DA LÍNGUA PORTUGUESA Mestrando: Luiz Carlos Orientadora: Renata Vieira
INTRODUÇÃO (OBJETIVO) Propor e avaliar técnicas para a construção automática de ontologias a partir de textos da língua portuguesa com base em técnicas já desenvolvidas para outras línguas
METODOLOGIA PROPOSTA Corpus XCES Extração de Termos • Formato XCES: • Token • PoS • Morfológico • Semântico (tags semânticas) • Phrase • Sintático Organização Hierárquica dos Termos Taxonomia
METODOLOGIA (EXTRAÇÃO DE TERMOS) Seleção por Grupos Semânticos Corpus XCES Filtro por Grupos Semânticos Rel. Freq. Extração de Termos Extração de Termos Simples Classe Gramatical Núcleo do Sintagma Nominal Organização Hierárquica dos Termos Rel. Freq. tf-idf NC-Value Extração de Termos Complexos N-Grama Padrões Morfossintáticos Sintagma Nominal Rel. Freq. tf-idf NC-Value C-Value Taxonomia
METODOLOGIA (ORGANIZAÇÃO HIERÁRQUICA DOS TERMOS) Corpus XCES Extração de Termos Organização Hierárquica dos Termos Termos Complexos Padrões de Hearst Padrões de Morin/Jacquemin Taxonomia
Módulo de Organização por Termos Complexos Módulo de Filtro por Grupos Semânticos Módulo de Extração de Termos Simples Módulo de Organização baseada nos Padrões de Hearst e Morin/Jacquemin ONTOLP Módulo de Extração de Termos Complexos Corpus XCES API XCES Termos Taxonomia Armazenado em Disco Armazenada em Memória Armazenado em Memória Armazenado em Memória Protégé Módulo de Importação do Corpus (API XCES)
CONSIDERAÇÕES FINAIS Principal Dificuldade: Escassez de recursos de avaliação Principais Contribuições: Avaliação do uso de informações semânticas na construção de ontologias para o Português Criação de uma ferramenta de uso geral para auxílio ao processo de construção de ontologias Desenvolvimento dos módulos de avaliação automática das etapas executadas
CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS Mestrando: Patricia Nunes Gonçalves Orientadora: Renata Vieira
Foco do Trabalho O foco deste trabalho é na análise e na recuperação da coesão referencial nos sumários extrativos que utilizam a escolha de sentenças de maior relevância do texto para compor o sumário.
OBJETIVOS Objetivo geral é enriquecer os sumários extrativos com a aplicação de resolução de correferência utilizando a recuperação de expressões referenciais mais completas nos textos-fonte. Tarefas Realizadas: Geração de Sumários Automáticos – GistSumm e SuPor-2 Realizar a revisão da coesão referencial automática desses sumários Avaliar os sumários revisados de forma automática – Rouge Avaliar os sumários revisados de forma subjetiva Realizar experimentos usando anotação automática de correferência.
FERRAMENTAS E RECURSOS Palavras [Bick,2002] MMAX[Muller and Strube, 2000] GistSumm[Pardo,2005] Supor-2[Leite,2007] Corpus Summ-it[Collovini et al, 2007] Rouge[Lin, 2004]
EXEMPLO [S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia. [S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina). [S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. [S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare. [S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra. [S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional. [S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno. [S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura. CIENCIA_2000_6389 31 Programa de Pós-Graduação em Computação Aplicada
EXEMPLO [S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia. [S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina). [S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. [S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare. [S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra. [S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional. [S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno. [S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura. CIENCIA_2000_6389 32 Programa de Pós-Graduação em Computação Aplicada
EXEMPLO [S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia. [S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina). [S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. [S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare. [S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra. [S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional. [S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno. [S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura. CIENCIA_2000_6389 33 Programa de Pós-Graduação em Computação Aplicada
RESULTADO Sumário Automático Sumário Corrigido Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. O agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina) citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. CIENCIA_2000_6389 34 Programa de Pós-Graduação em Computação Aplicada
RESULTADO Sumário Automático Sumário Corrigido Utilizando 1º Aposto Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. O agrônomo Miguel Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. CIENCIA_2000_6389 35 Programa de Pós-Graduação em Computação Aplicada
MÉTODOS Utiliza sistema de pontuação. Métodos implementados para pontuação: Maior Sintagma - Sars (sigla em inglês para síndrome respiratória aguda grave) Primeiro Sintagma da Cadeia - a proteína beta-amilóide.... a proteína..... ela... Possui Aposto - a gripe de 1918, a chamada gripe espanhola Possui Proprio – Jonas Perales do Laboratório de Toxinologia
EXPERIMENTOS GistSumm Supor-2
AVALIAÇÃO AUTOMÁTICA - ROUGE GistSumm SuPor-2
AVALIAÇÃO SUBJETIVA -INFORMATIVIDADE GistSumm Supor-2
EXPERIMENTOS Sistema de Resolução Automática de Correferência
EXPERIMENTOS Sistema de Resolução Automática de Correferência Rouge
CONSIDERAÇÕES FINAIS Enriquecimento dos sumários extrativos Manutenção da coesão referencial dos sumários Primeira abordagem para língua portuguesa Construção de uma interface para usuários
WordNet Affect BR: base lexical de emoções para a língua portuguesa Mestrando: Paulo Pasqualotti Orientadora: Renata Vieira
Objetivos • Construir uma base lexical de emoções para a língua portuguesa denominada de WordNet Affect BR; • Propor uma ferramenta de chat com o reconhecimento das palavras de emoção presentes no diálogo entre usuários e sua representação visual por meio de imagens;
Fundamentação • PLN e Computação Afetiva • Reconhecer e representar palavras de emoção. • Teoria psicológica cognitiva de emoções • Modelo OCC: as emoções surgem a partir da avaliação cognitiva que um sujeito faz a partir da desejabilidade de um evento, das ações de agentes e da atratividade dos objetos.
Recursos • WordNet • WordNet Affect
Metodologia • Criação da base; • Tradução das palavras; • Validação.
WordNet Affect BR • 289 palavras: adjetivos e substantivos; • Possibilidades de estender a base • Metáforas; • Bigramas, trigramas, expressões completas; • Palavras regionais, gírias, ...; • Gênero (a/o), número(s/p); • Conjugação de verbos; • Primitiva e derivadas; • Caracteres “emoticons”: :-) ; • ...
Avaliação ADJETIVOS: arrependido, contrito, penitente, pesaroso; SUBSTANTIVOS: arrependimento, auto-reprovação, compunção, consciência pesada, culpa, penitência , remorso, sentimento de culpa. • Imagens representando palavras de emoções • Formulário para avaliação da imagem quanto ao seu significado de emoções, representando o grupo de palavras.
Avaliação • Resultados