1 / 44

Link Mining

Link Mining. Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães. Roteiro. Definição Data Mining Link Mining Atividades envolvendo Link Mining Desafios de Link Mining. Dados. Quantidade de Dados Evolução dos recursos computacionais

isolde
Download Presentation

Link Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Link Mining Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães

  2. Roteiro • Definição • Data Mining • Link Mining • Atividades envolvendo Link Mining • Desafios de Link Mining

  3. Dados • Quantidade de Dados • Evolução dos recursos computacionais • Quantidade de informação dobra a cada 20 meses

  4. Data Mining • Consiste em técnicas para transformar grande quantidade de dados em informações consistentes, para detectar relacionamentos sistemáticos.

  5. Data Mining • Estatística • Recuperação da informação • Inteligência artificial • Reconhecimento de padrões

  6. Data Mining • Exemplo

  7. Link Mining • Refere-se a técnicas de mineração que explicitamente considera os tipos de links quando constrói modelos preditivos ou descritivos dos dados relacionados.

  8. Link Mining • Conjunto de Dados do Mundo Real: • Multi-relacionais, heterogêneos e semi-estruturado • Link Mining • Nova área de pesquisaemergenteresultante da interseçào de pesquisaemredes social e análise de links, hipertexto e mineraçãona web, aprendizadorelacional e programaçãológicaindutiva e mineração de grafos.

  9. Dados relacionados • Dados heterogêneos, multi-relacional representados como um grafo ou rede • Nós são objetos • Podemos ter diferentes tipos de objetos • Objetos tem atributos • Objetos podem ter rótulos ou classes • Arestas são links • Podemos ter diferentes tipos de links • Links podem ter atributos • Links podem ser direcionados e não necessariamente precisam ser binários

  10. Domínios de Exemplo • Dados Web • Dados Bibliográficos • Dados epidemiológicos

  11. P1 P3 P2 P4 Exemplo: Dados Bibliográficos Ligados P1 P3 P2 I1 I1 Objects: A1 Papers Links: P4 Authors Citação Institutions Co-Citação Attributos: Autor de Categorias Afiliação de autor

  12. Atividades Link Mining

  13. Ranking de Objetos baseado em Links • Ordenar um Conjunto de Objetos a partir de um grafo • Principais algoritmos: • Page Rank • HITS

  14. Ranking – Page Rank

  15. Ranking - HITS • Hubs e Authorities • Hubs: Linka várias Authorities • Authorities: São linkadas por vários Hubs

  16. Classificação de Objetos baseada em links • Predizer a categoria de um objeto baseado em seu atributos, seus links e também os atributos dos objetos ligados. • WEB: Predizer a categoria de uma página web, baseada em palavras que ocorrem na página, links entre páginas, texto principal, tags html, etc.

  17. Classificação de Objetos baseada em links • Cite: Predizer o tópico de um paper baseado na ocorrência de palavras, citações e co-citações • EPI: Predizer tipo de doenças baseadas em características das pessoas; Predizer a idade de um indivíduo baseado nas idades das pessoas que entraram em contato com ele e o tipo da doença.

  18. Detecção de Grupos • Agrupar os nós do grafo em grupos cujos integrantes possua características em comum; • Exemplo: • Determinar nichos de mercado • Técnicas: • Blockmodeling • Spectral graph partitioning

  19. Produtos 1 Idosos Mulheres 14-17 anos 2 3 4 Clientes 5 Homens 18-26 anos 6

  20. Identificação de Objeto • Predizer quando dois objetos são o mesmo, baseado em seus atributos a seus links (record linkage, eliminição de duplicações) • WEB: predizer quando dois sites são mirrors de um outro. • Cite: Predizer quando duas citações são referenciadas para o mesmo paper. • EPI: Predizer quando duas vertentes de doenças são as mesmas.

  21. Predizer Tipo de Link • Predizer o tipo ou propósito do Link • Web: Predizer links patrocinados e links de navegação; Predizer um relacionamento advisor-advisse • cite: Predição se um co-autor é também um orientador • Epi: Predizer se o contato é familiar, profissional ou conhecido

  22. Predizer existência de Links • Predizer se um Link existe entre dois objetos • WEB: predizer se haverá um link entre duas páginas • Cite: predizer se um paper citará outro paper • EPI:Predizer quem são os contatos de um paciente

  23. Predição de links • Predizer a existência de um link entre duas entidades baseado nos atributos dos objetos e outros links observados; • Problema de classificação binário: para qualquer dois objetos potencialmente linkados oi e oj, predizer quando lij é 1 ou 0. • Abordagens: • Propriedades estruturais da rede; • Informações dos atributos.

  24. Predição de links • Exemplo: • Friend Finder do Facebook • Prever relações de amizade entre membros de uma rede social • Relações existentes mas não observadas

  25. Predição de links • Exemplo: • Recomendações do Amazon • Prever compra de novos produtos com base no histórico de compras • Relações ainda não existentes (nesse caso, de compra de produtos)

  26. Estimar cardinalidade de links I • Predizer o número de links de um objeto • WEB: predizer a authoratativeness de umapáginabaseada no número de links internos; Identificando hubs baseado no número de links externos • Cite: predizer o impacto de um paper baseado no número de citações • EPI: predizer a infecciosidade de uma doença baseada no número de pessoas diagnosticadas

  27. Estimar cardinalidade de links II • Predizer o número de objetos alcançados ao longo de um caminho a partir de um objeto • Importante para estimar o número de objetos que será retornado por uma consulta • WEB: Predizer o número de páginas retornadas por crawling um site • Cite: predizer o número de citações de um autor particular em um journla específico • EPI: Predizer o número de contatos mais velhos para um paciente particular

  28. Descoberta de subgrafos • Encontrar subgrafos comuns ou interessantes em um conjunto de grafos; • Uso • Classificação de grupos; • Identificação de padrões; • Identificação de regras associadas. • Fases: • Geração de candidatos; • Matching. • Teste de isomorfismo dos subgrafos

  29. Descoberta de subgrafos • Exemplo: • Identificação de padrões de relacionamento

  30. Classificação de grafos Categorizar um grafo inteiro como uma instância positiva ou negativa de um conceito; Um dos primeiros problemas de data mining a empregar técnicas de AM; Não há necessidade de inferência coletiva -> independentemente gerado; Programação lógica indutiva: mineração de características do grafos utilizando descoberta de subgrafos

  31. Modelos geradores de grafos • Dado um conjunto de grafos, como podemos gerar novos grafos que são partes da distribuição do conjunto original? • Exemplo: • Expressões faciais

  32. Modelos geradores de grafos • 2 passos: • Contrução de um modelo estatístico do conjunto de grafos que capture as presentes variações estruturais subjacentes; • A partir desse modelo, gerar novos exemplos que são partes da distribuição do conjunto original.

  33. Desafios • Grafos em constante mudança

  34. Desafios Produtos Clientes 1 2 3 4 5 6 Combinar técnicas

  35. Desafios Produtos Clientes 1 2 3 4 5 Detectar grupos 6 Combinar técnicas

  36. Desafios Idosos Produtos Clientes 1 Mulheres 14-17 anos 2 3 4 5 Homens 18-26 anos 6 Combinar técnicas

  37. Desafios Idosos Produtos Clientes 1 Mulheres 14-17 anos 2 3 4 Previsão de links 5 Homens 18-26 anos 6 Combinar técnicas

  38. Desafios Análise de dados gigantescos

  39. Conclusão • Muitos domínios são melhores descritos hoje como uma coleção de dados linkados de objetos heterogênos relacionados; • Link mining é uma nova e excitante área de pesquisa em data mining que explora os links entre as instâncias dos dados;

  40. Conclusão

  41. Referências Link mining: a survey. Getoor L., Diehl C. SIGKDD Explor. Newsl., Vol. 7, No. 2. (December 2005), pp. 3-12 M. Kuramochi and G. Karypis. Frequent subgraph discovery.In ICDM, pages 313–320, 2001. http://blog.hubspot.com/blog/tabid/6307/bid/6050/The-Ultimate-List-100-Twitter-Statistics.aspx

  42. Dúvidas

More Related