Extração da Informação

Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana Extração da Informação

Roteiro • Motivação • Processo de extração da informação • Abordagens para um sistema de EI • Aplicações • Conclusão

Motivação • Crescimento desordenado da internet: • Em Dez/2012 o site InternetArchive afirmou que a internet possuia 10PetaBytes • Em 2015 estudos prevêm 966ExaBytes (1,000,000,000,000,000,000bytes) • Oportunidade de extrair informações da rede • Problemas • Documentos na maioria das vezes: não-estruturas ou semi-estruturados • Migração de dados entre interfaces distintas: • Web-service -> Banco de Dados

Motivação • Com Extração de Informações é possível: • Gerar resumos de textos • Minerar Dados • Preencher Base de Dados • Sumarizar Textos

Introdução • O que é EI? • Encontra informações em documentos não estruturados ou semi-estruturados • Conversão para estruturas de tabelas • WebServices • Banco de Dados • Exibição dos dados de forma legível

Introdução Sistema de Extração de Informação Sistema de Extração de Informação

Processo de extração de informação

Introdução • História • JASPER (1980s) • Sistema para finanças • MUC-Message Understanding Conference [final da década de 80] • Internet/Web [década de 90]

Recuperação de Informação • Recuperação de informação trata documentos relevantes, levando em conta os termos que aparecem no documento • Análise sintática do documento

Extração de Informação • Buscamaisdiretanostextos. • Pesquisadirecionadaempartesespecíficas do texto • Possuicustocomputacionalmaisbaixo, menoresforço

Extração de Informação • Extração de informação é uma tarefa na área de Recuperação da Informação • As informações são extraídas baseando-se no prévio conhecimento do documento • Procura encontrar informações e derivar conhecimento de documentos recuperados através da estrutura de sua representação

Mineração na web

Processo de extração de informação Extração individual Documento Reconhecimento de entidades AnáliseLéxica e Morfológica Análise de relacionamentos e contexto AnáliseSintática Integração Análisesemântica Inferência Informaçãoestruturada e contexto

Sistema de EI • A Implementação de sistemas de Extração de Informação distinguem-se entre duas abordagens: • Engenharia de conhecimento • Treinamento automático • As abordagens são diferenciadas pela forma com que as regras são definidas

Engenharia de conhecimento Regras são elaboradas manualmente Para isso é necessário que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras Sistemas mais precisos Mais tempo para desenvolvê-lo

Treinamento automático • Algoritmos de Inteligência Artificial para treinar o sistema • Documentos são utilizados no treinamento e na geração das regras • Usuários podem interagir • O algoritmo aprende regras com a interação com o usuário • Tempo menor de desenvolvimento • Menor precisão nos resultados

Abordagens para um Sistema de EI • Wrappers • Processamento de Linguagem Natural – PLN

Wrappers • Módulo que extrai a informação de documentos e a exporta como parte de uma estrutura de dados • Avanço da WEB, necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos

Wrappers • Textos estão • Estruturados • Semi-estruturados • Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras

Construção de wrappers • Automática • Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. • Semi-automática • Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. • Manual • Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos.

Processamento de Linguagem Natural - PLN • Textos estão • Semi-Estruturados (pouca estrutura) • Sem estrutura • PLN trabalha com língua e suas nuances para descobrir dados relevantes a serem extraídos

VisãoGeral • Nível Morfológico • Nível Sintático • Nível Semântico • Nível Discursivo • Nível Pragmático

Nível Morfológico A análiseMorfológicadetermina:

Nível Sintático • A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. • As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica • Tem como saída a representação da sentença que representa as dependências entre palavras • As sentenças de exemplo apenas diferem na sintaxe e apresentam significados diferentes

Nível Semântico • Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado • O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença • Sem ambiguidade semântica • A cabeça une-se ao tronco pelo pescoço • Ele é o cabeça da rebelião • Sabrina tem boa cabeça

Nível Discursivo • Analisa textos maiores que sentenças • Foca nas propriedades do texto como um todo, determinando significado através das conexões de sentenças • Resolução de Anáfora: • Substituição de pronomes pelas entidades que eles referenciam • Reconhecimento de estrutura de texto: • em um revistas temos; artigos de capa, opiniões, eventos passados, anúncios

Nível Pragmático • Foca no significado que vai além do contexto do texto • Requer um conhecimento global • Os exemplos seguintes utilizam anáforas mas as resoluções necessitam de um conhecimento global • Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto • Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

Técnicas de Extração • Autômatos finitos • Casamento de padrões • Classificadores de texto • Modelos de Markov escondidos (HMM)

Autômatos Finitos • Bons para textos estruturados. • Definidos manualmente ou aprendidos automaticamente. • Tipos: • Acceptors: com resposta sim ou não • Recognizers: um ou mais estados finais (categorização) • Transducers

Casamento de Padrões • Textos estruturados, semi-estruturados e livres. • Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. • ER mais intuitivas do que autômatos.

Classificadores de Texto • Textos semi-estruturados • Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) • Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Modelos de Markov Escondidos (HMM) • Textos livres e semi-estruturados. • Verifica a ocorrência de padrões em sequência no texto de entrada. • Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. • Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Aplicações de Extração de Informação • Ubibus • UbibusAnalysis • TG de vgl2 do Cin UFPE • Extrator de Dados Contextuais - responsável por buscar nas redes sociais informações sobre ocorrências de trânsito no Recife

Aplicações de Extração de Informação • Filtragem de Fóruns • Controle de Conteúdo • Assunto do Dialogo • Monitoramento da WEB • Buscar por Hackers • Busca por Terroristas

Aplicações de Extração de Informação • DEWI • É uma ferramenta baseada na Web que permite aos usuários encontrar e extrair as variáveis de conjuntos de dados selecionados dentro da ciência social, a coleta de dados numéricos “TheStanford UniversityLibraries”. • Ele está disponível para uso pela comunidade de Stanford para investigação e instrução. • O Sistema DEWI foi inspirado no Codebook Eletrônico (BCE) para Windows que foi desenvolvido por Dennis Carroll no Centro Nacional para Estatísticas da Educação (ENC).

Aplicações de Extração de Informação • Software aplicado em várias áreas: • A seguir, histórias de sucesso de clientes para extração de dados Web

Aplicações de Extração de Informação

Conclusões • Extrair Informação é preciso • WEB é um pandemônio de informações • Soluções inteligentes

Dúvidas

Referências • MANFREDINI, V. H.; Proposta de uma Técnica deExtração de Informação de Arquivos de Logde Servidores Proxy • Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados • http://en.wikipedia.org/wiki/Information_extraction • Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

Referências • Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf • Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO • Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR • http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

Referências • www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt • http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409 • MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc

Extração da Informação

Extração da Informação

Presentation Transcript

alunos da s??o jo??o

Curso de Especializa o em Programa Sa de da Fam lia ABO-CE M dulo de Gest o Gest o da Informa o

Sistemas de Informa o Gerencial

O processo de mudan a na implementa o de Tecnologia de Informa o: associando a compreens o do mbito da organiza o e

Gest o da Informa o na APF

ADMINISTRA O DA PRODU O

GEST O DA PRODU O

Gest o da Produ o

A Orienta o Empreendedora em Organiza es de Tecnologia da Informa o Projeto de Tese

SIEP Sistemas de Informa o da Educa o Profissional e Tecnol gica

A evolu o da log stica e da Tecnologia da informa o

ADMINSTRA O DE UNIDADES DE INFORMA O

Gest o da Informa o

DA OBSESS O

Curso de Sistemas de Informa o Disciplina: Introdu o Ci ncia da Computa o

INTRODU O GEST O DA QUALIDADE

Sociedade da Informa o Antecipar o Futuro

FORMATA O DA APRESENTA O

DA A O

A INFORMA O DE CUSTOS NO PROCESSO DECIS RIO DA GEST O P BLICA

Economia de Tecnologia da Informa o Economia de TI

Sistemas de Informa o Gerencial