1 / 48

Extração da Informação

Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana. Extração da Informação. Roteiro. Motivação Processo de extração da informação Abordagens para um sistema de EI Aplicações Conclusão. Motivação. Crescimento desordenado da internet:

quade
Download Presentation

Extração da Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana Extração da Informação

  2. Roteiro • Motivação • Processo de extração da informação • Abordagens para um sistema de EI • Aplicações • Conclusão

  3. Motivação • Crescimento desordenado da internet: • Em Dez/2012 o site InternetArchive afirmou que a internet possuia 10PetaBytes • Em 2015 estudos prevêm 966ExaBytes (1,000,000,000,000,000,000bytes) • Oportunidade de extrair informações da rede • Problemas • Documentos na maioria das vezes: não-estruturas ou semi-estruturados • Migração de dados entre interfaces distintas: • Web-service -> Banco de Dados

  4. Motivação • Com Extração de Informações é possível: • Gerar resumos de textos • Minerar Dados • Preencher Base de Dados • Sumarizar Textos

  5. Introdução • O que é EI? • Encontra informações em documentos não estruturados ou semi-estruturados • Conversão para estruturas de tabelas • WebServices • Banco de Dados • Exibição dos dados de forma legível

  6. Introdução Sistema de Extração de Informação Sistema de Extração de Informação

  7. Processo de extração de informação

  8. Introdução • História • JASPER (1980s) • Sistema para finanças • MUC-Message Understanding Conference [final da década de 80] • Internet/Web [década de 90]

  9. Recuperação de Informação • Recuperação de informação trata documentos relevantes, levando em conta os termos que aparecem no documento • Análise sintática do documento

  10. Extração de Informação • Buscamaisdiretanostextos. • Pesquisadirecionadaempartesespecíficas do texto • Possuicustocomputacionalmaisbaixo, menoresforço

  11. Extração de Informação • Extração de informação é uma tarefa na área de Recuperação da Informação • As informações são extraídas baseando-se no prévio conhecimento do documento • Procura encontrar informações e derivar conhecimento de documentos recuperados através da estrutura de sua representação

  12. Mineração na web

  13. Processo de extração de informação Extração individual Documento Reconhecimento de entidades AnáliseLéxica e Morfológica Análise de relacionamentos e contexto AnáliseSintática Integração Análisesemântica Inferência Informaçãoestruturada e contexto

  14. Sistema de EI • A Implementação de sistemas de Extração de Informação distinguem-se entre duas abordagens: • Engenharia de conhecimento • Treinamento automático • As abordagens são diferenciadas pela forma com que as regras são definidas

  15. Engenharia de conhecimento Regras são elaboradas manualmente Para isso é necessário que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras Sistemas mais precisos Mais tempo para desenvolvê-lo

  16. Treinamento automático • Algoritmos de Inteligência Artificial para treinar o sistema • Documentos são utilizados no treinamento e na geração das regras • Usuários podem interagir • O algoritmo aprende regras com a interação com o usuário • Tempo menor de desenvolvimento • Menor precisão nos resultados

  17. Abordagens para um Sistema de EI • Wrappers • Processamento de Linguagem Natural – PLN

  18. Wrappers • Módulo que extrai a informação de documentos e a exporta como parte de uma estrutura de dados • Avanço da WEB, necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos

  19. Wrappers • Textos estão • Estruturados • Semi-estruturados • Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras

  20. Construção de wrappers • Automática • Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. • Semi-automática • Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. • Manual • Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos.

  21. Processamento de Linguagem Natural - PLN • Textos estão • Semi-Estruturados (pouca estrutura) • Sem estrutura • PLN trabalha com língua e suas nuances para descobrir dados relevantes a serem extraídos

  22. VisãoGeral • Nível Morfológico • Nível Sintático • Nível Semântico • Nível Discursivo • Nível Pragmático

  23. Nível Morfológico A análiseMorfológicadetermina:

  24. Nível Sintático • A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. • As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica • Tem como saída a representação da sentença que representa as dependências entre palavras • As sentenças de exemplo apenas diferem na sintaxe e apresentam significados diferentes

  25. Nível Semântico • Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado • O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença • Sem ambiguidade semântica • A cabeça une-se ao tronco pelo pescoço • Ele é o cabeça da rebelião • Sabrina tem boa cabeça

  26. Nível Discursivo • Analisa textos maiores que sentenças • Foca nas propriedades do texto como um todo, determinando significado através das conexões de sentenças • Resolução de Anáfora: • Substituição de pronomes pelas entidades que eles referenciam • Reconhecimento de estrutura de texto: • em um revistas temos; artigos de capa, opiniões, eventos passados, anúncios

  27. Nível Pragmático • Foca no significado que vai além do contexto do texto • Requer um conhecimento global • Os exemplos seguintes utilizam anáforas mas as resoluções necessitam de um conhecimento global • Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto • Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

  28. Técnicas de Extração • Autômatos finitos • Casamento de padrões • Classificadores de texto • Modelos de Markov escondidos (HMM)

  29. Autômatos Finitos • Bons para textos estruturados. • Definidos manualmente ou aprendidos automaticamente. • Tipos: • Acceptors: com resposta sim ou não • Recognizers: um ou mais estados finais (categorização) • Transducers

  30. Casamento de Padrões • Textos estruturados, semi-estruturados e livres. • Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. • ER mais intuitivas do que autômatos.

  31. Classificadores de Texto • Textos semi-estruturados • Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) • Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

  32. Modelos de Markov Escondidos (HMM) • Textos livres e semi-estruturados. • Verifica a ocorrência de padrões em sequência no texto de entrada. • Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. • Maximiza a probabilidade de acerto para o conjunto todo de padrões.

  33. Aplicações de Extração de Informação • Ubibus • UbibusAnalysis • TG de vgl2 do Cin UFPE • Extrator de Dados Contextuais - responsável por buscar nas redes sociais informações sobre ocorrências de trânsito no Recife

  34. Aplicações de Extração de Informação • Filtragem de Fóruns • Controle de Conteúdo • Assunto do Dialogo • Monitoramento da WEB • Buscar por Hackers • Busca por Terroristas

  35. Aplicações de Extração de Informação • DEWI • É uma ferramenta baseada na Web que permite aos usuários encontrar e extrair as variáveis ​​de conjuntos de dados selecionados dentro da ciência social, a coleta de dados numéricos “TheStanford UniversityLibraries”. • Ele está disponível para uso pela comunidade de Stanford para investigação e instrução. • O Sistema DEWI foi inspirado no Codebook Eletrônico (BCE) para Windows que foi desenvolvido por Dennis Carroll no Centro Nacional para Estatísticas da Educação (ENC).

  36. Aplicações de Extração de Informação • Software aplicado em várias áreas: • A seguir, histórias de sucesso de clientes para extração de dados Web

  37. Aplicações de Extração de Informação

  38. Aplicações de Extração de Informação

  39. Aplicações de Extração de Informação

  40. Aplicações de Extração de Informação

  41. Aplicações de Extração de Informação

  42. Aplicações de Extração de Informação

  43. Aplicações de Extração de Informação

  44. Conclusões • Extrair Informação é preciso • WEB é um pandemônio de informações • Soluções inteligentes

  45. Dúvidas

  46. Referências • MANFREDINI, V. H.; Proposta de uma Técnica deExtração de Informação de Arquivos de Logde Servidores Proxy • Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados • http://en.wikipedia.org/wiki/Information_extraction • Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

  47. Referências • Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf • Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO • Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR • http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

  48. Referências • www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt • http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409 • MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc

More Related