1 / 40

Processamento da Linguagem Natural

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática. Ricardo Annes. Processamento da Linguagem Natural. Apresentação. Processamento da Linguagem Natural Processamento Baseado em Corpus Etiquetação Conclusões Sistemas Multi Agentes

Download Presentation

Processamento da Linguagem Natural

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes Processamento da Linguagem Natural

  2. Apresentação • Processamento da Linguagem Natural • Processamento Baseado em Corpus • Etiquetação • Conclusões • Sistemas Multi Agentes • Arquitetura de Etiquetadores Multi-Agentes • Referências

  3. Processamento da Linguagem Natural • Ramo da I.A. • Objetivos • interpretar e processar o conhecimento disponível • compreensão • geração • melhorar a comunicação Homem X Máquina • interdisciplinar • computação • lingüística • ciências cognitivas

  4. Processamento da Linguagem Natural • Aplicações • tradução automática • correção de textos • geração de resumos • sistemas inteligentes • interface • consultas bibliográficas • consultas tipo SQL em BD • síntese / análise de voz

  5. Processamento da Linguagem Natural • língua X linguagem • processamento • interpretação • texto representação • geração • representação texto

  6. Processamento da Linguagem Natural Linguagem • natural artificial • geral - restrita • complexa - limitada • contextual - específica • ambígua - não ambígua • português - fortran • inglês - pascal • francês - C • espanhol - java

  7. Fenômenos lingüísticos • Elipse Não ganhei na loto. • Zeugma Comprei uma caixa de maças e outra de ameixas. • Metáfora Um mar de problemas. • Metonímia Gosto de ler Érico Veríssimo. • Anáfora João gosta de Maria. Ela gosta de José. • Ambigüidade casa - substantivo ou verbo manga - fruta ou peça do vestuário Se você quer comprar um carro rápido.

  8. Domínios do PLN • Léxico-morfológico • Sintático • Semântico-pragmático

  9. Domínio Léxico-morfológico • Analisador léxico-morfológico • léxico (dicionário) • categorias gramaticais • substantivo adjetivo • verbo adverbio • numeral artigo • pronome preposição • ambigüidade léxica-morfológica • casa, mato, morro

  10. Domínio Sintático • Relações entre palavras da sentença • gramaticalidade • Unidades sintáticas (sintágmas) • sujeito • predicado • complemento verbal / nominal • concordância • regência • posicionamento

  11. Domínio Sintático léxico estrutura da sentença parser gramática todas sentença texto léxico-morf. Eu vi a moça com o binóculos. Árvore de derivações

  12. Domínio Semântico-pragmático • Representação do significado e sentido. • Semântica • léxica • gramatical Um assador de churrasco gaúcho • fenômenos de referência • anáfora pronominal Ela gosta do Zé. • elipse • sarcasmo

  13. Geração de textos • texto formalismos representação • representação texto • templates • Eliza[MIT60]

  14. Fala • Fonética • Fonologia • Prosódia • volume • entonação • tempo (velocidade e ritmo) • sarcasmo • agressividade • excitação • amor • simpatia

  15. fala fala proc. sinal sintet. voz caracteres f. i. class. acústica fonética intonação reconhecimento palavras palavras Sistema PLN ALLEN

  16. Processamento baseado em Corpus • Corpus - coleção de textos • escritos ou orais • representativos da linguagem • computacionalmente disponíveis • o plural - corpora • estudo do conhecimento lingüístico através de exemplos • vantagens • acessibilidade • velocidade • exatidão / fidelidade

  17. Processamento baseado em Corpus • treino e teste de sistemas de PLN • corpus • simples • marcados / anotados / rotulados / etiquetados

  18. PLN - conclusões • Ainda é um problema sem solução • relacionamento entre os domínios • interdisciplinar • IA • lingüística • ciências cognitivas • pesquisa • soluções domínios restritos • aplicações • reconhecimento de voz, geração de texto • formalismos para representação

  19. Domínios do PLN • Léxico-morfológico • Sintático • Semântico-pragmático

  20. PLN - conclusões • Arquiteturas • módulos hierárquicos independentes • seqüenciais • explosão combinatória • Distribuição (IAD) SMA interdependentes

  21. PLN - conclusões • Trabalhos na área • Ambigüidade léxica categorial [Silva97] • Anáfora do pronome possessivo [Paraboni97] • Léxico semântico [Abrahão97] • Tradução automática [Agustini] • Elipse [Unicamp] • www.portugues.mct.pt/recursos.html • SBIA - www.inf.pucrs.br/~sbia98/ • PROPOR - www.inf.pucrs.br/~sbia98/propor98.html

  22. Etiquetação Sentença marcada sentença ETIQUETADOR Quem/pronome indef. casa/verbo intransitivo ,/vírgula quer/verbo trans. direto casa/substantivo comum ./ponto final Quem casa, quer casa.

  23. Etiquetador • estatístico - padrões corpora • baseado em regras - lingüísticas • misto - regras obtidas processo estatístico [BRILL93]

  24. Etiquetador Estatístico (fases) - treinamento - aprende (corpus marcado) - teste - marcação (corpus conhecido) avalidação (medida de precisão) - marcação - marca sentenças - HMM - forma de modelar

  25. Rotulador Estatístico de Categorias Morfo-Sintáticas para a Língua Portuguesa Classes de ambiguidade e rótulos Construtor do HMM Corpus de treinamento classificador treinamento dicionário HMM teste Classes de ambiguidade Corpus de teste classificador Viterbi Rótulos

  26. Sistemas Multi-Agentes Sociedade - coleção de entidades - coordenação Agentes - entidades atuam na sociedade - autonomia - cooperação - aprendizagem - objetivos - conhecimentos

  27. Sistemas Multi-Agentes agentes + ambiente + interações + organização [DEMA95] interações - protocolos apresentação troca de conhecimentos negociação

  28. Agente Genérico Escolha Conhecimento Comunicação Capacidades de Decisão Capacidades de raciocínio Possibilidades Percepção Objetivos Modelo de agente [DEMA90]

  29. ARQUITETURA DO SISTEMA - genérico - específico Problema - conhecimento lingüístico - conhecimento distribuído - processos distribuídos

  30. precisão corpus de treinamento muito grande fase de treinamento (tempo) corpus único perde dependência ao domínio motiva múltiplos corpora MAS

  31. Fase de treinamento . . . corpus T2 corpus T3 corpus T1 corpus Tn Agente T1 Agente T3 Agente T2 Agente Tn HMM T1 HMM T3 HMM T2 HMM Tn Agente Genérico HMM Genérico

  32. Fase de Marcação sentenças Agente Genérico sentenças semi-marcadas ou ou Agente T2 Agente Tn Agente T1 . . . sentenças marcadas sentenças marcadas sentenças marcadas

  33. Modelo do Agente • Conhecimento -HMM (treinamento) • Objetivos - aquisição de conhecimento -marcação • Comunicação - corpus treinamento / sentenças -interação social (prot. KQML) • Raciocínio social - negociação • Ações - marcação - atualização conhecimentos - comunicação entre agentes

  34. Cooperação entre os Agentes • INTERAÇÕES • Apresentação • Despedida • Requisição ao agente genérico • Requisição a outro agente específico • Negociação

  35. Protótipo em desenvolvimento • Conhecimento modelo bigramas (HMM) • DPSK+P ambiente (MASENV) • KQML • NALAMAS • Etiquetador - UNL

  36. Hidden Markov Model HMM tuplas <S, s1, W, T> onde: S conjunto de estados s1 estado inicial W conjunto símbolos T as transições

  37. Hidden Markov Model HMM tuplas <S, s1, W, T> onde: S conjunto de estados rótulos s1 estado inicial W conjunto símbolos palavras T as transições palavras

  38. Hidden Markov Models P(a) = 0,3 P(a) = 0,4 P(a) = 0,2 P(b) = 0,1 2 1 P(a) = 0,2 P(b) = 0,2 P(b) = 0,5 P(b) = 0,1

  39. Referências de PLN • [ALLE94] ALLEN, J. Natural language understanding. The Benjamin/Cumming Company. 1994. • [BEAR91] BEARDON, C; LUMSDEN, D.; HOLMES, G. Natural Language and Computational Linguistics. Ellis Horwood Ltd. Melsham-Wiltshire, England, 1991. • [CHARN93] CHARNIAK. E. Statistical language learning. London: Abradford Book.The MIT Press. 1993. 170p. • [DE LIMA96] DE LIMA, V.L.S. - Processamento da Linguagem Natural - premissas e desafios -IV Escola Regional de Informática - SBC. 1996 • [DE LIMA97] DE LIMA, V.L.S. - Projeto NALAMAS - Atividades setembro 1996/ agosto 1997 - PUCRS - Relatório Técnico -1997

  40. PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes annes@pucrs.campus2.br

More Related