1 / 38

Resolução de Entidades

Resolução de Entidades. Equipe. Lucas Inojosa da Costa Ferreira (licf) Victor Hugo Carvalho de Amorim (vhca). Agenda. Tema Objetivo Motivação Dificuldades Caracterização do problema Similaridade entre entidades Algoritmo de clusterização Avaliação de resultado Conclusão. Tema.

Download Presentation

Resolução de Entidades

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Resolução de Entidades

  2. Equipe Lucas Inojosa da Costa Ferreira (licf) Victor Hugo Carvalho de Amorim (vhca)

  3. Agenda Tema Objetivo Motivação Dificuldades Caracterização do problema Similaridade entre entidades Algoritmo de clusterização Avaliação de resultado Conclusão

  4. Tema Resolução de Entidades: Resolução de ambiguidade entre nomes de autores em citações bibliográficas Uma citação bibliográfica é um conjunto de dados bibliográficos relativos a um artigo específico, por exemplo, nomes de autores, título do artigo, veículo e ano de publicação

  5. Objetivo Prover serviços com grande ganho de informação de forma confiável: - Citações de alta qualidade - Consistentes - Atualizadas

  6. Motivação Papel importante em sistemas do mundo acadêmico: - Plataforma de currículos LATTES - Bibliotecas digitais de publicações científicas como a DBLP e a BDBComp

  7. Motivação Fornecem: - Cobertura do conhecimento de uma área - Tendências de pesquisa - Qualidade ou impacto de publicações - Padrões de colaboração em redes sociais - Suporte a decisão para agências de fomento a pesquisas

  8. Dificuldades Problemas em manter as citações o mais consistentes e atualizadas possível: - Erros na catalogação de dados - Variedades de formatos - Nomes de autores ambíguos - Abreviação de nomes de veículos de publicação - Dados a serem inseridos muitas vezes não são validados

  9. Caracterização do problema Basear-se apenas na similaridade textual entre os nomes dos autores para agrupar as citações de uma biblioteca digital pode trazer alguns problemas

  10. Caracterização do problema Formalmente tem-se dois subproblemas: - Citações separadas (splitcitation) - Citações agrupadas (mixedcitation)

  11. Caracterização do problema Citações separadas (splitcitation): - Identificar citações bibliográficas de um autor específico que estão divididas em várias classes - Cada classe associada a uma variação do nome do autor, como se fossem pessoas diferentes - Causas da variação: abreviações, erros de digitação e supressão ou troca de sobrenomes intermediários

  12. Caracterização do problema Citações agrupadas (mixedcitation): - Diferentes autores com a mesma grafia - Autores que possuem o mesmo nome - Causas do agrupamento: abreviação ou supressão de parte de seus nomes - O nome A. Gupta pode, em uma publicação, representar Apurba Gupta e, em outra, Apoop Gupta

  13. Caracterização do problema Exemplo de citações separadas: um único autor e diferentes grafias

  14. Caracterização do problema Exemplo de citações separadas: um único autor e diferentes grafias

  15. Caracterização do problema Exemplo de citações agrupadas: vários autores e a mesma grafia

  16. Resolução de Entidades em Grafos Grafo de Referência: nós são referências para entidades e arestas estão entre essas referências Grafo de Entidades: nós representam as verdadeiras entidades e as arestas, suas reais relações

  17. Resolução de Entidades em Grafos Conciliar referências de dados com a mesma entidade do mundo real Construir um grafo de entidades “limpo” que capte as relações entre as verdadeiras entidades a partir do grafo de referência Importante passo em qualquer processo de mineração de grafos

  18. Resolução de Entidades em Grafos Dada uma coleção de referências para entidades, pretendemos: Determinar a verdadeira coleção de entidades subjacentes Mapear corretamente as referências de entidades para as reais entidades Mapear corretamente os relacionamentos das referências de entidades (arestas no grafo de referências) para relacionamentos entre entidades (arestas no grafo de entidades)

  19. Caracterização do problema Exemplo de um grafo de referência simples

  20. Caracterização do problema Exemplo de um grafo de entidade simples (grafo resolvido)

  21. Métricas de similaridade Similaridade de atributos Similaridade baseada em grafo Entre 0 e 1

  22. Similaridade de atributos Comparações par-a-par: Single-link, average-link, complete-link Custo computacional alto para grandes clusters Single-link mais apropriado - Se 2 ref. são duplicadas, todas as duplicações destas ref. também são duplicações - Atualiza a similaridade entre 2 clusters:

  23. Similaridade de atributos Computa a similaridade apenas com os nomes distintos de cada cluster Criação de um atributo representativo para cada cluster

  24. Similaridade baseada em grafo Entidades relacionadas entre si Similaridade por arestas Similaridade de vizinhança

  25. Similaridade por arestas Considerar o conjunto de arestas de um cluster Comparar os conjuntos de arestas de 2 clusters (par-a-par) Para cada aresta, considerar o multi-conjunto de rótulos de entidade

  26. Similaridade por arestas Métrica de Jaccard Single-link novamente

  27. Similaridade de vizinhança Método anterior muito complexo Junta todas as referências de todas as arestas do cluster num multi-conjunto, criando uma vizinhança

  28. Similaridade baseada em grafo

  29. Algoritmo de clusterização Experimentalmente, apenas 1% dos pares são duplicações Técnica de bloqueio é aplicada para eliminar os 99% e garantir muito mais eficiência Impraticável a comparação de todos os pares de candidatos

  30. Algoritmo de clusterização As potenciais duplicações são identificadas Inseridas numa fila de prioridade pelo seu nível de similaridade O par com maior similaridade é mesclado em um novo cluster As operações são repetidas até a similaridade do maior par candidato estar abaixo de um limiar determinado

  31. Algoritmo de clusterização Cada referência inicialmente torna-se um cluster Sem um grafo formado, as comparações iniciais são baseadas apenas na similaridade de atributos Comparações baseadas em bancos de dados também são levadas em conta

  32. Algoritmo de clusterização Clusters inicializados Identifica os clusters mais similares, criando um novo cluster a partir deles Atualiza as similaridades Heaps indexados podem ser utilizados no processo Complexidade O(1) para a extração do par mais similar; O(log n) para mesclar de clusters

  33. Métricas de avaliação Diversidade Dispersão

  34. Experimentos

  35. Experimentos

  36. Conclusões Resolução baseada em grafos captura as relações entre as referências, aumentando a precisão Métrica com maior custo computacional prova ser mais confiável em alguns casos Escolha do algoritmo depende da frequência com que o processo é aplicado

  37. Referências http://pt.scribd.com/doc/58484396/27/Resolucao-de-Entidades http://www.decom.ufop.br/menotti/monoI111/PropostaMonografia-docs/BCC390-111-pm-07.1.4192-HerculanoGrippNeto.pdf http://www.bibliotecadigital.ufmg.br/dspace/bitstream/1843/SLBS-7NAEMD/1/ricardogon_alvescota.pdf EntityResolution In Graphs– IndrajitBhattacharya, Lise Getoor – Departamentof Computer Science – Universityof Maryland

  38. Dúvidas

More Related