440 likes | 754 Views
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática. Ricardo Annes. Processamento da Linguagem Natural. Apresentação. Processamento da Linguagem Natural Processamento Baseado em Corpus Etiquetação Conclusões Sistemas Multi Agentes
E N D
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes Processamento da Linguagem Natural
Apresentação • Processamento da Linguagem Natural • Processamento Baseado em Corpus • Etiquetação • Conclusões • Sistemas Multi Agentes • Arquitetura de Etiquetadores Multi-Agentes • Referências
Processamento da Linguagem Natural • Ramo da I.A. • Objetivos • interpretar e processar o conhecimento disponível • compreensão • geração • melhorar a comunicação Homem X Máquina • interdisciplinar • computação • lingüística • ciências cognitivas
Processamento da Linguagem Natural • Aplicações • tradução automática • correção de textos • geração de resumos • sistemas inteligentes • interface • consultas bibliográficas • consultas tipo SQL em BD • síntese / análise de voz
Processamento da Linguagem Natural • língua X linguagem • processamento • interpretação • texto representação • geração • representação texto
Processamento da Linguagem Natural Linguagem • natural artificial • geral - restrita • complexa - limitada • contextual - específica • ambígua - não ambígua • português - fortran • inglês - pascal • francês - C • espanhol - java
Fenômenos lingüísticos • Elipse Não ganhei na loto. • Zeugma Comprei uma caixa de maças e outra de ameixas. • Metáfora Um mar de problemas. • Metonímia Gosto de ler Érico Veríssimo. • Anáfora João gosta de Maria. Ela gosta de José. • Ambigüidade casa - substantivo ou verbo manga - fruta ou peça do vestuário Se você quer comprar um carro rápido.
Domínios do PLN • Léxico-morfológico • Sintático • Semântico-pragmático
Domínio Léxico-morfológico • Analisador léxico-morfológico • léxico (dicionário) • categorias gramaticais • substantivo adjetivo • verbo adverbio • numeral artigo • pronome preposição • ambigüidade léxica-morfológica • casa, mato, morro
Domínio Sintático • Relações entre palavras da sentença • gramaticalidade • Unidades sintáticas (sintágmas) • sujeito • predicado • complemento verbal / nominal • concordância • regência • posicionamento
Domínio Sintático léxico estrutura da sentença parser gramática todas sentença texto léxico-morf. Eu vi a moça com o binóculos. Árvore de derivações
Domínio Semântico-pragmático • Representação do significado e sentido. • Semântica • léxica • gramatical Um assador de churrasco gaúcho • fenômenos de referência • anáfora pronominal Ela gosta do Zé. • elipse • sarcasmo
Geração de textos • texto formalismos representação • representação texto • templates • Eliza[MIT60]
Fala • Fonética • Fonologia • Prosódia • volume • entonação • tempo (velocidade e ritmo) • sarcasmo • agressividade • excitação • amor • simpatia
fala fala proc. sinal sintet. voz caracteres f. i. class. acústica fonética intonação reconhecimento palavras palavras Sistema PLN ALLEN
Processamento baseado em Corpus • Corpus - coleção de textos • escritos ou orais • representativos da linguagem • computacionalmente disponíveis • o plural - corpora • estudo do conhecimento lingüístico através de exemplos • vantagens • acessibilidade • velocidade • exatidão / fidelidade
Processamento baseado em Corpus • treino e teste de sistemas de PLN • corpus • simples • marcados / anotados / rotulados / etiquetados
PLN - conclusões • Ainda é um problema sem solução • relacionamento entre os domínios • interdisciplinar • IA • lingüística • ciências cognitivas • pesquisa • soluções domínios restritos • aplicações • reconhecimento de voz, geração de texto • formalismos para representação
Domínios do PLN • Léxico-morfológico • Sintático • Semântico-pragmático
PLN - conclusões • Arquiteturas • módulos hierárquicos independentes • seqüenciais • explosão combinatória • Distribuição (IAD) SMA interdependentes
PLN - conclusões • Trabalhos na área • Ambigüidade léxica categorial [Silva97] • Anáfora do pronome possessivo [Paraboni97] • Léxico semântico [Abrahão97] • Tradução automática [Agustini] • Elipse [Unicamp] • www.portugues.mct.pt/recursos.html • SBIA - www.inf.pucrs.br/~sbia98/ • PROPOR - www.inf.pucrs.br/~sbia98/propor98.html
Etiquetação Sentença marcada sentença ETIQUETADOR Quem/pronome indef. casa/verbo intransitivo ,/vírgula quer/verbo trans. direto casa/substantivo comum ./ponto final Quem casa, quer casa.
Etiquetador • estatístico - padrões corpora • baseado em regras - lingüísticas • misto - regras obtidas processo estatístico [BRILL93]
Etiquetador Estatístico (fases) - treinamento - aprende (corpus marcado) - teste - marcação (corpus conhecido) avalidação (medida de precisão) - marcação - marca sentenças - HMM - forma de modelar
Rotulador Estatístico de Categorias Morfo-Sintáticas para a Língua Portuguesa Classes de ambiguidade e rótulos Construtor do HMM Corpus de treinamento classificador treinamento dicionário HMM teste Classes de ambiguidade Corpus de teste classificador Viterbi Rótulos
Sistemas Multi-Agentes Sociedade - coleção de entidades - coordenação Agentes - entidades atuam na sociedade - autonomia - cooperação - aprendizagem - objetivos - conhecimentos
Sistemas Multi-Agentes agentes + ambiente + interações + organização [DEMA95] interações - protocolos apresentação troca de conhecimentos negociação
Agente Genérico Escolha Conhecimento Comunicação Capacidades de Decisão Capacidades de raciocínio Possibilidades Percepção Objetivos Modelo de agente [DEMA90]
ARQUITETURA DO SISTEMA - genérico - específico Problema - conhecimento lingüístico - conhecimento distribuído - processos distribuídos
precisão corpus de treinamento muito grande fase de treinamento (tempo) corpus único perde dependência ao domínio motiva múltiplos corpora MAS
Fase de treinamento . . . corpus T2 corpus T3 corpus T1 corpus Tn Agente T1 Agente T3 Agente T2 Agente Tn HMM T1 HMM T3 HMM T2 HMM Tn Agente Genérico HMM Genérico
Fase de Marcação sentenças Agente Genérico sentenças semi-marcadas ou ou Agente T2 Agente Tn Agente T1 . . . sentenças marcadas sentenças marcadas sentenças marcadas
Modelo do Agente • Conhecimento -HMM (treinamento) • Objetivos - aquisição de conhecimento -marcação • Comunicação - corpus treinamento / sentenças -interação social (prot. KQML) • Raciocínio social - negociação • Ações - marcação - atualização conhecimentos - comunicação entre agentes
Cooperação entre os Agentes • INTERAÇÕES • Apresentação • Despedida • Requisição ao agente genérico • Requisição a outro agente específico • Negociação
Protótipo em desenvolvimento • Conhecimento modelo bigramas (HMM) • DPSK+P ambiente (MASENV) • KQML • NALAMAS • Etiquetador - UNL
Hidden Markov Model HMM tuplas <S, s1, W, T> onde: S conjunto de estados s1 estado inicial W conjunto símbolos T as transições
Hidden Markov Model HMM tuplas <S, s1, W, T> onde: S conjunto de estados rótulos s1 estado inicial W conjunto símbolos palavras T as transições palavras
Hidden Markov Models P(a) = 0,3 P(a) = 0,4 P(a) = 0,2 P(b) = 0,1 2 1 P(a) = 0,2 P(b) = 0,2 P(b) = 0,5 P(b) = 0,1
Referências de PLN • [ALLE94] ALLEN, J. Natural language understanding. The Benjamin/Cumming Company. 1994. • [BEAR91] BEARDON, C; LUMSDEN, D.; HOLMES, G. Natural Language and Computational Linguistics. Ellis Horwood Ltd. Melsham-Wiltshire, England, 1991. • [CHARN93] CHARNIAK. E. Statistical language learning. London: Abradford Book.The MIT Press. 1993. 170p. • [DE LIMA96] DE LIMA, V.L.S. - Processamento da Linguagem Natural - premissas e desafios -IV Escola Regional de Informática - SBC. 1996 • [DE LIMA97] DE LIMA, V.L.S. - Projeto NALAMAS - Atividades setembro 1996/ agosto 1997 - PUCRS - Relatório Técnico -1997
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes annes@pucrs.campus2.br