1 / 36

Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos:. Uma visão geral sobre os termos e a extração automática . Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009. Roteiro. Um pouco de Terminologia Um breve histórico Termos e Terminologia O que é um Termo? Dimensões dos Termos

taariq
Download Presentation

Extração Automática de Candidatos a Termos:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extração Automática de Candidatos a Termos: Uma visão geral sobre os termos e a extração automática Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009

  2. Roteiro • Um pouco de Terminologia • Um breve histórico • Termos e Terminologia • O que é um Termo? • Dimensões dos Termos • Extração Automática de Candidatos a Termos • O reconhecimento terminológico • Método Estatístico • Método Linguístico • Método Híbrido • NSP – N-GramStatistic Package • Conclusão

  3. Um pouco de Terminologia • Breve Histórico (1) • Subárea do Curso de Letras • Não existe curso de Terminologia • É uma área Aplicada e Teórica • Aplicada: mais antiga, ligada aos saberes técnicos e científicos (séc. XVII) • Vocabulários específicos e nomenclaturas técnico-científicas • Teórica: mais recente, estudos dos termos nas comunicações especializadas (séc. XX) • Formação dos termos técnico-científicos • Demarcação do Léxico Geral e Léxico das Ciências • Terminologia nos aspectos Disciplinar, Social e Político

  4. Um pouco de Terminologia • Breve Histórico (2) • A Terminologia: • estuda os Léxicos Especializados • relação direta com os avanços da ciência • denominações das novas descobertas e invenções do homem • relação com a Globalização • agente de intercâmbios culturais, científicos e tecnológicos • tradução e uso correto dos termos • interesse do Público Geral • busca e ampliação do conhecimento específico

  5. Um pouco de Terminologia A Terminologia é fundamental na sociedade atual pois trabalha na ampliação e difusão do conhecimento, baseando-se na linguagem especializada, sobretudo sobre os termos como veículo transmissor do conhecimento específico.

  6. Um pouco de Terminologia • Terminologia no Brasil • Início em 1986 • ANPOLL • Crescimento de 1990 em diante: • UnB: Lexterm • MCT: IBICT • USP/FFLCH: Citrat • PUC-Rio • ABNT • UFPE • UFRGS: Termisul • UFCE • UFG • UNESP: Ibilce • UFSCar: GETerm • UFU

  7. Termos e Terminologia • Questões: • O que é um Termo? • Qual o papel dos Termos? • O que diferencia um Termo de uma Palavra? Termo é uma unidade lexical de significação especializada. Expressar e transferir o conhecimento de caráter especializado Propriedades: da dimensão conceitual e invariabilidade semântica

  8. Termos e Terminologia • Isso quer dizer que: Que o significado de uma determinada palavra do léxico geral está associada, na maioria das vezes, ao contexto discursivo em que está inserida, diferentemente do que ocorre com os termos, que se limitam a expressar conceitos específicos.

  9. Termos e Terminologia • Exemplos: Casa Língua Geral 1 João foi para casa depois do trabalho. Casa Domínio Jurídico Casa: Bem inviolável... A Justiça Federal protege a casa de João.

  10. Termos e Terminologia • Exemplos: Lençol Língua Geral 2 Joana estendeu o lençol de sua cama. Lençol Domínio Futebol Lençol: Lance no qual o jogador encobre o adversário com a bola. O mesmo que Chapéu. A torcida vibrou com o lençol do atacante sobre o goleiro.

  11. Termos e Terminologia • Exemplos: Letra Língua Geral 3 Ninguém consegue entender a letra do Francisco. Letra Domínio Futebol Letra: Toque na bola após a mesma passar entre as pernas do jogador . O Pelé fez um gol de letra.

  12. Termos e Terminologia • Percepções: • Os Termos nascem como Palavras • Antes de ser Termo ele é uma Palavra • O Termo participa o léxico geral • Possui contextos linguísticos e pragmáticos • Processo da “Terminologização” • Valorização terminológica de uma determinada Palavra Globalização Terminologização PALAVRA TERMO Avanços da Ciência Ampliação do Conhecimento

  13. Termos e Terminologia Terminologização é processo pelo qual as palavras da língua geral adquirem significados específicos, pertinentes a uma determinada área do saber científico, tornando-se então, elementos integrantes dos repertórios terminológicos. Desse ponto de vista, uma unidade lexical pode assumir o valor de termo fazendo parte da representação dos princípios e propósitos de uma área.

  14. Termos e Terminologia • Dimensões dos Termos: Dimensão Conceitual Representa o conceito e o conhecimento especializado o qual se refere. Termo Representa a vertente comunicativa, na tarefa de comunicar e transmitir o conhecimento especializado de forma eficiente. Dimensão Linguística Representa a estrutura morfológica do termo e as diferentes possibilidades de formação e combinação lexical. Dimensão Comunicacional

  15. Extração Automática de Candidatos a Termos • A Extração de Termos é: • Em Terminologia: É a obtenção do conjunto terminológico que compõe a nomenclatura do produto terminológico (do glossário, dicionário ou base de dados). • Em Computação: É o processo automático de reconhecer e extrair os candidatos a termos presentes em um determinado córpusde especialidade.

  16. Extração Automática de Candidatos a Termos • Esquema geral Lista de Termos Extrator de Termos Córpus

  17. Extração Automática de Candidatos a Termos • A tarefa de extração de termos é crucial para várias aplicações: • Recuperação de Informação • Criação (semi-)automática de ontologias • OntoLP – dissertação de mestrado (PUC-RS - Junior, 2007) • Sumarização Automática • Indexação e Classificação de Textos • Alinhamento de Textos Bilíngües • Tradução • Recursos Básicos de Processamento de Línguas Naturais (PLN) • Edição Suportada por Computador • Corretores Gramaticais • Geração de Língua Natural

  18. Extração Automática de Candidatos a Termos • Um tema de pesquisa • área da Linguística (reconhecimento terminológico) • Termos tridimensionais • área da Computação (aplicação do conhecimento) • Gargalo do Trabalho Terminológico • Trabalho difícil e custoso • Exige atenção e perspicácia

  19. Extração Automática de Candidatos a Termos • Problemas • Silêncio e Ruído • Verificação das Listas (resultado) Ruído (falso positivo) Lista de Termos Extrator de Termos Córpus Silêncio (falso negativo)

  20. Extração Automática de Candidatos a Termos • Métodos de Extração Automática • Métodos Estatísticos • Métodos Linguísticos • Métodos Híbridos Geralmente detectam as unidades terminológicas de acordo com a freqüência em que elas ocorrem em um córpus. Detectam padrões de formação morfossintáticos dos termos tais como “substantivo-adjetivo” e “substantivo-preposição-substantivo”. Utilizam a estatística juntamente com o conhecimento linguístico.

  21. Extração Automática de Candidatos a Termos • Método Estatístico • Puramente estatístico (sem conhecimento linguístico) • Várias medidas estatísticas • Frequência Simples • Informação Mútua • Coeficiente Dice • Log-Likelihood • C-Value • Teste X2 • Trabalho mais simples/fácil • Independente de domínio • Alteração nos Valores de Corte • Gera muito Ruído

  22. Extração Automática de Candidatos a Termos • Método Linguístico • Uso de conhecimento linguístico • Córpus etiquetado (POS-Tagger), informações lexicográficas, morfológicas e semânticas • Ferramentas: tokenizador, lematizador, análise sintática • Definição dos Padrões de Formação de Termos • Trabalho humano (linguísta) • Definição dos Padrões • Trabalho mais elaborado/difícil • Ajustes nos Padrões • Dependente de domínio • Gera muito Ruído ou Silêncio • Depende da quantidade de padrões aplicados • Resultados tendem a ser melhores EXEMPLOS N / NP / Adj / Verb N + Adj / N + N / Adj + N / Adj + Adj / N + Adv N + Prep + N / N + Prep + NP / N + N + Adj / N + Adj + Adj / N + Prep + Adj

  23. Extração Automática de Candidatos a Termos Lista de Termos Extrator de Termos Córpus Aplicação do Conhecimento Linguístico

  24. Extração Automática de Candidatos a Termos • Método Híbrido • Uso da estatística e de conhecimento linguístico • Tipos: • Estatístico => Linguístico (Problemas de Ruído) • Linguístico => Estatístico (Problemas de Silêncio) • Trabalho humano (linguísta) • Definição dos Padrões • Trabalho muito mais elaborado/difícil • Ajustes nos Padrões • Dependente de domínio • Melhores resultados • Linguístico => Estatístico

  25. Extração Automática de Candidatos a Termos • Híbrido: Estatístico - Linguístico Lista de Termos Extrator de Termos Córpus Parte Linguística Parte Estatística

  26. Extração Automática de Candidatos a Termos • Híbrido: Linguístico – Estatístico Lista de Termos Extrator de Termos Córpus Parte Estatística Parte Linguística

  27. NSP – n-GramStatistics Package • Pacote estatístico para manipulação de n-Grams • Ted Pedersen e colaboradores (Universidade de Minnesota) • http://www.d.umn.edu/~tpederse/nsp.html • n-Gram • Unidade Lexical de tamanho n • onde n = tamanho do termo, pode ser n= (1,2,3... n) . • Exemplos: n = 1: Unigrama, n = 2: Bigramas, n = 3: Trigramas • Implementado em Perl • Possui vários programas (9 no total):

  28. NSP – n-GramStatistics Package • Estatísticas para análise de tokens e córpusé o uso mais comum • Possibilidade de vários outros trabalhos • Contador de Frequências • Limpeza de córpus • Análise estatística e de co-relação de termos • Extração Automática de Termos • etc.

  29. NSP – n-GramStatistics Package COUNT.PL Calcula a frequência de n-grams em um texto/córpus. Frequências de n-Grams COUNT.PL Textos/Córpus

  30. NSP – n-GramStatistics Package COUNT.PL • count.pl –-help • count.pl [OPCOES] <saida> <entrada> • Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod • Exemplos: • Uso do count.pl (opções) • --ngram • --token • --stop • --remove • --frequency • --window • --histogram • Lexia Simples/Complexa

  31. NSP – n-GramStatistics Package STATISTIC.PL Calcula as medidas de associação dos nGrams de texto/córpus. Frequências de n-Grams n-Grams com medida STATISTIC.PL Medida de Associação

  32. NSP – n-GramStatistics Package Medidas são arquivos com extensão “ponto PM” (.pm) Perl Module

  33. NSP – n-GramStatistics Package STATISTIC.PL • statistic.pl –-help • statistic.pl [OPCOES] <medida_associacao> <saida> <resultado_count> • Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod • Exemplos: • Uso do statistic.pl (opções) • --ngram • --score • --rank • --frequency • --precision

  34. NSP – N-GramStatistics Package Interface Web do NSP – Frequência Simples

  35. Conclusões • Área de Pesquisa • melhorar os resultados • testar novos métodos • mesclar métodos conhecidos • Difícil automatização • reconhecimento terminológico (Como identificar um Termo?) • Dependente de domínio • mas tem se desenvolvido • Usado em várias aplicações e atividades • Fundamental para Terminologia • O NSP pode ser uma boa opção para abordagem estatística • Vários aspectos implementados • Evita retrabalho • Precisa de mais documentação oficial

  36. F I M! Muito Obrigado! Leandro Henrique lhmoliveira@gmail.com

More Related