1 / 11

Diogo Ribeiro Glauber Ramos

i Gather: Refinamento de Buscas. Diogo Ribeiro Glauber Ramos. Agenda. O problema Qual o problema? Relevância do problema Solução Modelos O que é uma tag? O que é um cluster? Método MCL Parâmetros Extração de resultados Nodo mais representativo Validação

Download Presentation

Diogo Ribeiro Glauber Ramos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. iGather: Refinamento de Buscas DiogoRibeiro Glauber Ramos

  2. Agenda • O problema • Qual o problema? • Relevância do problema • Solução • Modelos • O que é uma tag? • O que é um cluster? • Método • MCL • Parâmetros • Extração de resultados • Nodo mais representativo • Validação • Trabalhos relacionados • Trabalhos futuros • Considerações Finais

  3. Qual o problema? • Sistemas de busca baseados em índices quantitativos (Ex: PageRank, número de visitas, quantidade de referências, etc) • Usuários ao procurar por um domínio semântico especifico nesses sistemas podem vir a encontrar o primeiro resultado correspondente muito além da primeira página. • Nesse trabalho procurou-se agrupar resultados de campos de conhecimento relacionados a fim de facilitar a pesquisa do usuário.

  4. Relevância do problema • É um assunto atual que atinge um grande número de pessoas e atualmente várias empresas estão investindo nessa área. • O campo de motores de busca é muito importante e bastante concorido. A resolução do problema de domínios semânticos pode vir a ser um diferencial diante do grande número de ferramentas de buscas existentes.

  5. Solução • Para a resolução desse trabalho foi utilizado o Flickr. • Para encontrar grupos semânticos distintos dentro de um resultado é preciso encontrar semelhanças entre os menbros de um resultado. • Para encontrar essas semelhanças são utilizadas as tags específicas de cada resultado de busca do Flickr.

  6. O que é uma tag? • Uma tag é um metadado fornecido por um usuário com o objetivo de descrever um item ao qual é relacionado. • A ocorrência de um par de tags em um resultado é referida como co-ocorrência e é atribuído a esse par um peso.

  7. O que é uma tag? • Para calcular o peso das arestas foi utilizado a métrica de Dice. • A atribuição de peso leva em conta quantas vezes as duas tags aparecem em resultados de busca, mas também a quantidade em que elas aparecem juntas. Isso é muito importante para evitar a supervalorização de tags que aparecem em grandes quantidades de resultados. • Quando um par de tags sempre aparece junto o valor do peso de sua aresta é 1.

  8. O que é um cluster? • Um agrupamento de tags é chamado de cluster. • Um cluster representa um domínio semântico e a maioria das suas tags são sobre o mesmo assunto. • A qualidade de um cluster é medida através das métricas de coesão e separação:

  9. MCL • Para a realização do processo de clusterização dos resultados foi utilizado o algoritmo MCL que é um processo iterativo proposto pelo autor Stijn van Dong. Ele se baseia na clusterização de grafos através da simulação de fluxos dentro de uma cadeia de Markov. • MCL representa o grafo a ser clusterizado através de uma matriz estocástica. Cada valor dessa matriz representa a probabilidade de atingir um nodo i a partir de outro nodo j. Quanto maior o peso da aresta maior a probabilidade de atingi-lo.

  10. MCL • Para conseguir uma matriz estocástica é preciso realizar o processo de Normalização. • Neste processo o peso de cada aresta é dividido pela soma de todos os pesos de todas as arestas ligadas ao nodo i. • Cada linha da matriz terá soma 1 e todos seus valores representam a probabilidade do nodo i atingir o nodo j.

  11. MCL

More Related