1 / 17

GHHITS – Mining the Web Link Structure

Universidade Federal de Pernambuco Centro de Informática. GHHITS – Mining the Web Link Structure. Roberta Coelho Silvio Meira. Universidade Federal de Pernambuco Centro de Informática. GHHITS – Minerando a Estrutura de Links da Web. Roberta Coelho Silvio Meira. Roteiro.

shay
Download Presentation

GHHITS – Mining the Web Link Structure

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universidade Federal de Pernambuco Centro de Informática GHHITS – Mining the Web Link Structure Roberta Coelho Silvio Meira

  2. Universidade Federal de Pernambuco Centro de Informática GHHITS – Minerando a Estrutura de Links da Web Roberta Coelho Silvio Meira

  3. Roteiro • Motivação e Problema • Abordagem • Metodologia Empregada • Detalhamento da Solução • Contribuições para a Área e Originalidade do Tema • Publicações Geradas

  4. Motivação e Problema Abordagem Metodologia Detalhamento Contribuições e Originalidade Publicações • Alternativa mais efetiva para se encontrar informações na Web: engenhos de busca • Exemplo de uma arquitetura centralizada para um engenho de busca:

  5. Motivação e Problema Abordagem Metodologia Detalhamento Contribuições e Originalidade Publicações 792.356 Desafios enfrentados pelos engenhos de busca: 1. Desafio de Precisão (tópicos gerais) • 85,2% dos usuários visualiza apenas a 1a. página resposta 2. Usuários inexperientes • 70% das consultas: 1 termo

  6. Abordagem Motivação e Problema Metodologia Detalhamento Contribuições e Originalidade Publicações Causa: Algoritmos de busca textual • Algoritmos de busca textual: não associam o conceito de importância  insuficientes ao processo de RI na Web. . Documentos Web  Documentos “flat” Hiperlinks: navegacionais,comerciais, funcionais Possível Solução: Algoritmos de Análise de Links • Links funcionais: Opinião coletiva dos usuários da Web. • Algoritmos sendo desenvolvidos para explorar a estrutura de links da Web.

  7. Abordagem Motivação e Problema Metodologia Detalhamento Contribuições e Originalidade Publicações • Melhorar a eficácia de recuperaçãode um engenho de busca a partir da utilização da análise de links em conjunto a análise textual no momento do ranqueamento.

  8. Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • Estudo dos algoritmos de AL existentes. • PageRank (Google), HITS (IBM),CLEVER Project (IBM), Web Archeology Research (COMPAQ) • HITS - Hyperlink Induced Topic Search • Autoridade uma pagina referenciada por várias páginas é considerada “importante”. • Hub uma página que aponta para muitas páginas “importantes” (“Bookmark”). a(i) =  h (j) j  B(i) h(i) =  a (j) i F (i)

  9. Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • 2. Elaboração de um algoritmo de AL. • Algoritmo Proposto: Global Hybrid HITS (GHHITS) • Pesos de Autoridade e Hub de cada página da Web indexada são pre-computados Off-line. • Utiliza heurísticas de Limpeza (filtros de IP). (PageRank) a(i) =  h (j) * aut_wt(j,i) + InitAut(i) j  B(i) (COMPAQ) h(i) =  a (j) * hub_wt(i,j) + InitHub(i) i F (i) (CLEVER)

  10. Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • 3. Implementação de um sistema para validação do algoritmo: • - Armazenamento e análise de links Ranking = a * TEXT + b*AUT <url _origem> |<link_destino_1> |...|<link_destino_n> cod_pagina : peso_aut : peso_hub

  11. Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • 4. Elaboração de uma fórmula de ranqueamento para combinar: • o peso de IMPORTÂNCIA (AUT) • o peso de provável RELEVÂNCIA (TEXT) Ranking = a * TEXT + b*AUT

  12. Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações 3 termos (4%) 2 termos (11%) 1 termo (85%) • 5. Avaliar o impacto desta combinação na eficácia de recuperação.

  13. Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações Ranking = a * TEXT + b*AUT

  14. Detalhamento Motivação e Problema Abordagem Metodologia Contribuições e Originalidade Publicações

  15. Detalhamento Motivação e Problema Abordagem Metodologia Contribuições e Originalidade Publicações • Resultados do experimento

  16. Detalhamento Motivação e Problema Abordagem Metodologia Contribuições e Originalidade Publicações Discussão dos resultados: • 0.85TEXT_0.15AUT, 0.75TEXT_0.25AUT, 0.65TEXT_0.35AUT obtiveram melhor performance de recuperação que a estratégia TEXT • 0.75TEXT_0.25AUT: melhoria mais significativacom relação a estratégia TEXT (CR_TEXT): • precisão@10= 9,42% • PMTS@10=14,64% • AUT: pior performance neste experimento pois despreza características intrínsecas da página TOP 100 autoridades foram “.com”

  17. Contribuições e Originalidade Motivação e Problema Abordagem Metodologia Detalhamento Publicações • Um novo Algoritmo de Análise de Links: - O tempo de resposta atende aos requisitos de tempo dos EB comerciais (TR do HITS =~30 min) - Pesos de Hub e Autoridade calculados Off-line para todo o grafo. - GHHITS reduz os requisitos de memóriaprincipal necessários ao HITS  estratégia de join orientado a blocos. • Elaboração de um Sistema para Armazenamento e Análise de Links. • Levantamento de características de um subgrafo da Web Brasileira (11,4%). - Número de forwardlinks e backlinks extrínsecos, intrínsecos. • Sistema de Julgamento de Relevância.

More Related