1 / 49

Extração de Informação

André Ricardo – arsl Danilo Veras – dlv Leila Soriano – lssta Luis Otávio – locb. Extração de Informação. Roteiro. Motivação Onde tudo começou Processo de Extração Wrappers Aplicações Referências. Motivação. O que é informação? Bem dinâmico com valor associado

kaylee
Download Presentation

Extração de Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. André Ricardo – arsl Danilo Veras – dlv Leila Soriano – lssta Luis Otávio – locb Extração de Informação

  2. Roteiro • Motivação • Onde tudo começou • Processo de Extração • Wrappers • Aplicações • Referências

  3. Motivação • O que é informação? • Bem dinâmico com valor associado • Curiosidade, busca por informação, busca por conhecimento • O diferencial do ser humano • Consultar • um dos pilares da gestão de conhecimento

  4. Busca por informação como necessidade empresarial • Aspecto chave das empresas • mecanismos para facilitar busca de informação • Acesso eficiente às informações • maior produtividade e novas oportunidades

  5. Motivação

  6. Motivação • A Internet • Gigantesca base de documentos em crescimento acelerado • Como obter informações relevantes em bases textuais? • Extração de informação

  7. Onde tudo começou... • MUC - Message Understanding Conference • Abordagem de EI utilizando processamento de linguagem natural • Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular

  8. MUC • Aplicações: • MUC-1 (1987), MUC-2 (1989): Naval operations messages. • MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries. • MUC-5 (1993): Joint ventures and microelectronics domain. • MUC-6 (1995): News articles on management changes. • MUC-7 (1998): Satellite launch reports.

  9. Template Item1: Item2: Item3: Item4: Item5: Sistema de EI BC BD Processo de Extração • Extrair, de documentos textuais, apenas os dados relevantes ao usuário • Utilização de um template Documento

  10. Processo de Extração • Pode ser dividido em 5 tarefas: • Segmentação • Classificação • Associação • Normalização • Deduplicação

  11. Processo de Extração- Segmentação • Processo de segmentar o texto de entrada em tokens • cada token (segmento) deve corresponder a um campo do template de saída • i.e., cada token deve preencher um campo do template

  12. Processo de Extração- Classificação • Determina qual campo do template de saída corresponde a cada segmento do texto de entrada • A relação deve ser de um para um • É importante salientar que os processos de segmentação e classificação, em geral, acontecem simultaneamente

  13. Processo de Extração- Associação • Determina quais segmentos (tokens) estão relacionados a um mesmo fato • Supondo um texto que descreva vários cursos universitários • Um mesmo curso pode ser descrito por mais de um parágrafo • A extração precisa determinar quais segmentos de quais parágrafos se referem ao mesmo curso

  14. Processo de Extração- Normalização • Permite que as informações sejam armazenadas segundo um padrão pré-estabelecido • O horário de um curso pode ser representado como 2pm-4pm ou como 4-6pm, por exemplo • Neste caso, o processo de normalização poderia transformar os dois formatos para 14h00-16h00 e • 16h00-18h00, respectivamente

  15. Processo de Extração- Deduplicação • Elimina informações redundantes do banco de dados com os templates de saída • Um curso pode ser ministrado em mais um departamento e, por isso, ter sua descrição em mais de uma página web • Sem o processo de deduplicação, o banco terá informações redundantes

  16. EI vs RI • Recuperação de Informação • Estuda formas de armazenar e recuperar documentos de forma rápida e automática • Extração de Informação • Objetiva obter informações específicas a partir de um documento • EI e RI são tecnologias complementares

  17. EI vs RI • Recuperação de Informação: • Entrega documentos para o usuário • Extração de Informação: • Entrega fatos para o usuário/aplicações

  18. EI vs Compreensão Completa do Texto • CCT • Entendimento do texto inteiro • Representação alvo complexa • Necessita reconhecer aspectos estilísticos • EI • Somente uma parte do texto é relevante • Representação alvo rígida • Estilo e cor do texto é irrelevante

  19. Porque EI é difícil? • Linguagem Natural é difícil de tratar automaticamente... • Flexível • Frodo Baggins succeeds Bilbo Baggins as chairperson of Bank of America. • Bank of America named Frodo Baggins as its new chair-person after Bilbo Baggins. • Ambígua • Sam, Frodo’s partner, a CMU student, … • Dinâmica • Novas palavras: ecotourist, lol • Novos significados: to google, to message

  20. Projeto do Sistema de Extração • Grande influência do tipo de texto: • Estruturados • Semi-estruturados • Livres

  21. Sistemas de EI • Baseados em PLN • Wrappers • Manual • Automático

  22. PLN • Sistemas baseados em PLN são capazes de lidar com as irregularidades das línguas naturais • Técnicas: • Part-of-speech (POS) tagging • Mark each word as a noun, verb, preposition, etc. • Semantic word categories • KILL: kill, murder, assassinate, strangle, suffocate

  23. Baseada em engenharia do conhecimento Construção de regras de extração Padrões de extração descobertos por investigação e exame do corpus de treinamento Vantagens Boa performance dos sistemas Desvantagens Processo de desenvolvimento trabalhoso Escalabilidade Necessidade de um especialista

  24. Baseado em aprendizagem de máquina Aprender sistemas de EI a partir de um conjunto de treinamento Vantagens Mais fácil marcar um corpus do que criar regras de extração Menor esforço do especialista Escalabilidade Desvantagens Esforço de marcação do corpus de treinamento

  25. Wrappers- técnicas de extração • Autômatos Finitos • Pattern matching • Classificação de Textos • Modelos de Markov Escondidos (HMM)

  26. Definidos por: (1) estados que “aceitam” os símbolos do texto que preenchem algum campo do formulário de saída; (2) estados que apenas consomem os símbolos irrelevantes encontrados no texto; (3) símbolos que provocam as transições de estado. Textos estruturados e semi-estruturados Delimitadores, ordem dos elementos Algoritmos específicos para EI WIEN, SoftMealy, STALKER

  27. Wrappers- autômatos finitos

  28. Utiliza expressões regulares que “casam” com o texto para extrair as informações Textos livres, estruturados e semi Delimitadores, padrões regulares Ex. data, CEP Algoritmos específicos para EI WHISK, Rapier

  29. Wrappers- patternmatching

  30. Tarefa de EI -> tarefa de classificação Textos semi-estruturados

  31. Classificadores Convencionais: KNN, Naive Bayes, Redes Bayesianas Específicos: SRV Vantagens Podem utilizar várias características de cada fragmento Ex. tamanho, posição, formatação, presença de palavras Desvantagens Classificação local

  32. Classificam seqüências de padrões Classes representadas pelos estados do HMM Retorna a seqüência de estados com maior probabilidade de ter emitido cada seqüência de símbolos de entrada. Textos livres e semi-estruturados 0,5 0,5 veículo título 0,2 0,5 0,5 S 0,5 0,5 outros 0,5 0,5 0 0,8 0,2 autor data 0,1 0,2 HMM

  33. Site L1 Deseja-se identificar este usuário!! Site L2 Wrappers- modelo de markov escondido 12 3 P1 L1, L2, L2, L1, L1, L1, L2, L2, L2, L2 P2 L2, L1, L2, L1, L1, L2, L1, L1, L2, L2 P3 L1, L1, L1, L2, L1, L2, L1, L2, L2, L2 PX L1, L2, L2, L2, L1, L2, L1, L1, L2, L1

  34. 2 transições vão para L1 2 transições vão para L2 4 transições que saem de L1 Wrappers- modelo de markov escondido Assume-se que a probabilidade de se visitar um site depende do site que foi visitado no dia anterior, caracterizando uma Cadeia de Markov. P1 L1, L2, L2, L1, L1, L1, L2, L2, L2, L2

  35. 1 transição vai para L1 4 transições vão para L2 5 transições que saem de L2 Wrappers- modelo de markov escondido P1 L1, L2, L2, L1, L1, L1, L2, L2, L2, L2 Assume-se que a probabilidade de se visitar um site depende de que site foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

  36. Wrappers- modelo de markov escondido

  37. Wrappers- modelo de markov escondido • Vantagens • Realizam uma classificação ótima para a seqüência completa de entrada • Desvantagens • Limitação:utilizam apenas um atributo por padrão a ser classificado

  38. Baseada em uma técnica de Spell-Checker Quebra os tokens em n-gramas (n=3) Ex. “cavalo” -> “cav”, “ava”, “val”, “alo” Conjunto de treinamento tokens com a classe correspondente Persiste o treinamento Classifica exemplos de entrada através de uma distribuição de probabilidade

  39. Aplicações • Extração de Informação em BD • Query Manager (QM) • Ferramenta Web • Agiliza consulta e EI dos BD’s de empresas • Facilita construção de relatórios Localizada no RJ, é especializada em soluções e-learning.

  40. Aplicações • Extração de Informação em Documentos • Análise do Código Fonte de Aplicações • Uso de Padrões • Qualidade do Código Empresa de Curitiba, oferece sistemas de análise do código fonte em diversas linguagens.

  41. Aplicações • Extração de Informação na WEB • Filtragem de Fóruns • Controle do Conteúdo • Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning.

  42. Aplicações • Extração de Informação na WEB • Monitoramento da WEB • Busca por Hackers • Busca por Terroristas Empresa mundialmente reconhecida, presente no Brasil há 10 anos, oferecendo soluções nas áreas de segurança web e redes.

  43. Aplicações • Extração de Informação na WEB • Monitoramento de opiniões espontâneas na WEB • Análises qualitativas e quantitativas dos dados recolhidos • Informação estruturada de cada post, a partir de cada serviço cadastrado. • Empresa brasileira com:

  44. Aplicações • Extração de Informações Estratégicas • Business Intelligence • Análise de Mercado • Melhoria de Processos Empresa brasileira que oferece soluções na área de BI.

  45. Aplicações • Extração de Informações Estratégicas • Análises Biológicas de Dados • Regiões Codificantes (DNA) • Regiões Ativas (Proteínas) National Center for Biotechnology Information, criado em 1988, localizado nos Estados Unidos. É a principal fonte de informações sobre Genômica na Internet.

  46. Aplicações • Extração de Informações Estratégicas • Análises de Arquivos de LOG • Logs de Erro • Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados.

  47. Aplicações • Extração de Informações Estratégicas • Análises de Imagens • Geologia • Climatologia • Astrologia Empresa brasileira com 10 anos de mercado, oferece soluções para análise e classificação de imagens.

  48. Referências • Revista Espaço Acadêmico - http://www.espacoacademico.com.br/059/59silvafilho.htm • Wikipedia - http://www.wikipedia.org • Negócios Integrados - http://www.ni.com.br • PT Sistemas de informação - http://www.ptsi.pt/PTSI • ATSolutions - http://www.atsolutions.com.br • Techne - http://www.techne.com.br • Datacraft - http://www.datacraft.com.br • NBCI - http://www.ncbi.nlm.nih.gov • Semiotic Systems - http://www.semiotic.com.br • E.Life - http://www.elife.com.br • Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados. Eduardo F.A. Silva, Flávia A. Barros & Ricardo B. C. Prudêncio

  49. Dúvidas

More Related