1 / 32

Seminário IN1099 Information Retrieval & Text Mining

Seminário IN1099 Information Retrieval & Text Mining. Luciano de Souza Cabral CIn-UFPE. Roteiro. Introdução Motivação Recuperação de Informação Mineração de Textos Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining Conclusão Referências. Introdução.

zamora
Download Presentation

Seminário IN1099 Information Retrieval & Text Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seminário IN1099InformationRetrieval & TextMining Luciano de Souza Cabral CIn-UFPE

  2. Roteiro • Introdução • Motivação • Recuperação de Informação • Mineração de Textos • Extração da Informação • Extração do Conhecimento • KDT • Data Mining versus Text Mining • Conclusão • Referências

  3. Introdução Crescimento das coleções de textos digitais (bibliotecas digitais, Internet, Intranets, ...) + Crescimento exponencial da World Wide Web Novas técnicas de recuperação de informações (IR)

  4. Motivação “Estamos morrendo ignorantes num mar de informações.” (Desconhecido) O que fazer para encontrar (de forma eficiente) os melhores documentos que satisfaçam a pesquisa /consulta do usuário.

  5. Recuperação da Informação • Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação. • Objetivo principal: facilitar o acesso a documentos relevantes à necessidade de informação do usuário.

  6. Conceito de Recuperação da Informação • A Recuperação da Informação trata dos aspectos intelectuais da descrição da informação e sua especificação para a busca, e também de qualquer sistema, técnicas ou máquinas que são empregadas para realizar esta operação. [Mooers, 1951]

  7. Modelos de Recuperação da Informação Eficiência de um sistema depende principalmente do modelo que o mesmo utiliza: • Modelos quantitativos • Modelos dinâmicos • Linguagem natural • Ambiente Web - Web Semântica

  8. Abordagens de RI • Busca automática baseada em palavra-chave • Técnicas de Indexação • Manual e Automática • Técnicas de Classificação • Conceitos importantes • “ranking” • “stemming” • “tesaurus”

  9. Critérios utilizados em RI • Revocação • Grau de sucesso: número de documentos relevantes recuperados em relação ao total de documentos relevantes existentes • Precisão • Mede o sucesso da filtragem: número de documentos relevantes recuperados em relação ao total de documentos recuperados • Cobertura: volume de informações disponíveis • Formato de saída • Tempo de resposta • Atualidade

  10. Problemas de RI • Ausência Contexto • Problemas Lingüísticos • Necessidade de Intervenção Humana

  11. Extração do Conhecimento • [Cabral & Siebra, 06] • Por definição, “A extração de conhecimento em bases de dados consiste na seleção e processamento de dados com a finalidade de identificar novos padrões, dar maior precisão em padrões conhecidos e modelar o mundo real. Data Mining, em português mineração de dados, refere-se ao exame de grandes quantidades de dados, procurando encontrar relações entre eles” [MICTHELL, 97].

  12. Usuário Analista Usuário Necessidade Objetivos Preparação de Dados Mineração de Dados Interpretação Conhecimento Extração do Conhecimento • [Cabral & Siebra, 06] • Etapas do processo * Adaptado de [TERRA, 2000].

  13. Mineração de Dados • Data Mining • “...é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou seqüências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.” [Wikipedia] • Aplica-se dados categóricos e numéricos. • Restrito a bases de dados relacionais e variações.

  14. Mineração de Dados • Text Mining • “...refere-se ao processo de obtenção de informação de qualidade a partir de texto em linguagens naturais. É inspirado na mineração de dados, que consiste em extrair informações de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.” [Wikipedia] • Aplica-se a textos. • Abrange textos em formato livre ou semi-estruturados.

  15. Data Mining versus Text Mining • [Cabral & Siebra, 06] * Adaptado de [WOHL, 1998].

  16. Abordagens e Áreas envolvidas • [Freitas, 07] • Computacional • Aprendizagem de máquina; • Lógica Fuzzy; • Estatística; • Recuperação da Informação. • Simbólica • Processamento de Linguagem Natural; • Raciocínio baseado em casos e simbólico • Ambas abordagens podem ser combinadas.

  17. Abordagens da Mineração de TextoPrós e Contras • [Freitas, 07] • Computacional • Bom para maioria das tarefas; • De implementação rápida, baseada em aprendizagem; • Não recomendado para argumentação e dedução de informações. • Baseado em Conhecimento • Melhor no tratamento de contextos • Ontologias! • Combina melhor com técnicas PLN • Pergunta-Resposta • Análise e Argumentação Textual • Extração de Informação • Pouquíssimo utilizado na articulação de conceitos • Muitas aplicações combinam as duas abordagens! (Ex: KDT, IE from Texts)

  18. KDT - Knowledge Discovery from Texts • Técnicas KDT • Extração de Informação • Categorização de textos • Análise das características • Análise lingüística • Sumarização de textos • Associação entre textos • Clustering (Agrupamento)

  19. Ontologias • Definições • “Uma ontologia é um entendimento comum e compartilhado de algum domínio que pode ser comunicado entre pessoas e computadores” [STUDER et al., 1998]; • “Uma ontologia é uma representação de um domínio ou realidade. No caso de uma coleção de textos, a ontologia é uma representação dos temas, assuntos ou conceitos presentes nos textos” [LOH et al., 2004].

  20. Vantagens • Discussões na área de Mineração de Textos é se um software poderá extrair automaticamente conhecimento a partir de uma coleção textual. • Experimentos realizados pelo Text Mining Research Group at the University of Waikato mostram que é possível automatizar partes do processo de descoberta, minimizando a dependência do usuário. • Entretanto é notório que algum tipo de intervenção humana é necessária e útil.

  21. Tendências • Necessidade de integrar cada vez mais as abordagens de BD, HM e RI com ontologias • Busca de maior “semântica” associada às informações • Abordagens apresentam funcionalidades complementares • Fronteira entre o tipo de informação tratada por cada abordagem tende a desaparecer • Crescente necessidade de uso de Taxonomias e Ontologias

  22. Aplicações de RI com Ontologias • OntoSeek • M&M • MASTER-Web • AGATHE* • KIM Platform • WSMO Studio ambiente para modelagem de SWS • OWLIM repositório semântico de escala industrial • Wsmo4j API e referências para construção de SWS • PROTON um pequeno construtor/editor de ontologias de propósito geral. • ORDI um framework para representação de ontologias e integração de dados via middleware.

  23. OntoSeek • [Guarino et al., 99] • Desenvolvido para recuperar informações de páginas-amarelas e catálogo de produtos. • Ontologia na interface do usuário; • Trata ambiguidade, polisemia, sinonímia e relações parte todo usando WordNet [Miller, 95]

  24. M&M • [Noy, 99] • M&M query system, por Natasha Noy. • Apresenta conceitos de RI como sistema de Pergunta-Resposta sobre o domínio de Microbiologia. • Capacidade de realização de vários tipos de inferências: generalização, especialização e parte-todo. • Performance muito boa.

  25. Master-WEB • [Freitas & Bittencourt, 2003] • Multi-Agent System for Text Extraction, Retrieval and classification over the WEB. • Testes com ontologias de domínios diferentes, com resultados expressivos. • Sem grandes alterações no projeto.

  26. KIM Platform • Plataforma de Gerenciamento de Informação e Conhecimento. • Indexa, Armazena, Recupera, Consulta, análise de linha de tempo das anotações semânticas.

  27. Evolução: Recursos na Web • Futuro: Web Semântica • Não apenas informações e aplicativos, mas recursos em geral!

  28. O que é Web Semântica? • É uma extensão da Web atual que visa dar significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al., 01]

  29. Web Semântica: Visão da W3C • “A Web Semântica é uma visão: é a idéia de se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas para automação, integração e reuso de dados entre aplicações” [W3C]

  30. XML e a Web Semântica • Convergência de diversas tendências • Uso de padrões • Busca de flexibilidade, conviver com heterogeneidade • Maior automatização • Melhoria dos mecanismos de busca • Melhoria dos descritores associados aos recursos • Maior suporte à integração de recursos • Serviços Web + Ontologias

  31. Conclusões • A Recuperação da Informação sozinha apresenta alguns problemas não triviais de serem tratados. • A utilização de Mineração de Textos combinada com abordagens baseadas em conhecimento diminui o domínio de problemas apresentado em RI, além de aumentar a precisão dos resultados, obviamente dependendo da definição do contexto a ser analisado. • Uso de ontologias em sistemas de recuperação e mineração textual é comprovadamente benéfico, aumentando consideravelmente seus resultados. • Adição de semântica na web abre um leque com novas possibilidades de processamento de informações.

  32. Referências • TERRA, J.C.C. Gestão do conhecimento: o empresarial. Grande desafio.São Paulo: Negócio Editora, 2000. • TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em: <http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em: 30/09/2007. • MICTHELL, Tom. Machine Learning, McGraw Hill, 1997. • WOHL, Amy D. Intelligent Text Mining Creates Business Intelligence. IBM Business Intelligence Solutions CD. EUA: 1998. • STUDER, R. et al. Knowledge engineering: principles and methods. Data & Knowledge Engineering, v.25, n.1/2, 1998. • LOH, S. et al. Apoio à gestão de competências: Software para análise de conceitos. INTEXT: Porto Alegre, Dezembro, 2004. • CABRAL, Luciano & SIEBRA, Sandra. Identificação de Competências em Currículos usando Ontologias. Revista de Ciência , Tecnologia e Empreendedorismo, CETEC-FIR. v.1, n.1, Recife, 2006. • FREITAS, Fred. A quest for context: knowledge-based approaches for text mining. Lecture Notes, PPT, Marseille, 2007. • WIKIPEDIA. Wikipédia. A enciclopédia livre. <www.wikipedia.org>. • RIBEIRO-NETO, Berthier & BAEZA-YATES, Ricardo. Modern Information Retrieval. ACM Press. 1999. • W3C, World Wide Web Consortium, Semantic Web Activity Statement. <http://www.w3.org/2001/sw/Activity>. Acesso em: 30/09/2007. • GUARINO, N. ; Masolo, C. & Vetere, G. OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, 14(3), 70--80, (May 1999). • KIRYAKOV, A.; POPOV, B.; TERZIEV, I.; MANOV, D. & OGNYANOFF , D. Semantic Annotation, Indexing, and RetrievalExtended and updated version of [KiryakovEtAl2003]. Elsevier's Journal of Web Semantics, Vol. 2, Issue (1), 2005. • POPOV, B.; KIRYAKOV, A.; OGNYANOFF, D.; MANOV, D. & KIRILOV, A. KIM - A Semantic Platform For Information Extraction and Retrieval.Journal of Natural Language Engineering, Vol. 10, Issue 3-4, Sep 2004, pp. 375-392, Cambridge University Press.

More Related