170 likes | 249 Views
Universidade Federal de Pernambuco Centro de Informática. GHHITS – Mining the Web Link Structure. Roberta Coelho Silvio Meira. Universidade Federal de Pernambuco Centro de Informática. GHHITS – Minerando a Estrutura de Links da Web. Roberta Coelho Silvio Meira. Roteiro.
E N D
Universidade Federal de Pernambuco Centro de Informática GHHITS – Mining the Web Link Structure Roberta Coelho Silvio Meira
Universidade Federal de Pernambuco Centro de Informática GHHITS – Minerando a Estrutura de Links da Web Roberta Coelho Silvio Meira
Roteiro • Motivação e Problema • Abordagem • Metodologia Empregada • Detalhamento da Solução • Contribuições para a Área e Originalidade do Tema • Publicações Geradas
Motivação e Problema Abordagem Metodologia Detalhamento Contribuições e Originalidade Publicações • Alternativa mais efetiva para se encontrar informações na Web: engenhos de busca • Exemplo de uma arquitetura centralizada para um engenho de busca:
Motivação e Problema Abordagem Metodologia Detalhamento Contribuições e Originalidade Publicações 792.356 Desafios enfrentados pelos engenhos de busca: 1. Desafio de Precisão (tópicos gerais) • 85,2% dos usuários visualiza apenas a 1a. página resposta 2. Usuários inexperientes • 70% das consultas: 1 termo
Abordagem Motivação e Problema Metodologia Detalhamento Contribuições e Originalidade Publicações Causa: Algoritmos de busca textual • Algoritmos de busca textual: não associam o conceito de importância insuficientes ao processo de RI na Web. . Documentos Web Documentos “flat” Hiperlinks: navegacionais,comerciais, funcionais Possível Solução: Algoritmos de Análise de Links • Links funcionais: Opinião coletiva dos usuários da Web. • Algoritmos sendo desenvolvidos para explorar a estrutura de links da Web.
Abordagem Motivação e Problema Metodologia Detalhamento Contribuições e Originalidade Publicações • Melhorar a eficácia de recuperaçãode um engenho de busca a partir da utilização da análise de links em conjunto a análise textual no momento do ranqueamento.
Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • Estudo dos algoritmos de AL existentes. • PageRank (Google), HITS (IBM),CLEVER Project (IBM), Web Archeology Research (COMPAQ) • HITS - Hyperlink Induced Topic Search • Autoridade uma pagina referenciada por várias páginas é considerada “importante”. • Hub uma página que aponta para muitas páginas “importantes” (“Bookmark”). a(i) = h (j) j B(i) h(i) = a (j) i F (i)
Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • 2. Elaboração de um algoritmo de AL. • Algoritmo Proposto: Global Hybrid HITS (GHHITS) • Pesos de Autoridade e Hub de cada página da Web indexada são pre-computados Off-line. • Utiliza heurísticas de Limpeza (filtros de IP). (PageRank) a(i) = h (j) * aut_wt(j,i) + InitAut(i) j B(i) (COMPAQ) h(i) = a (j) * hub_wt(i,j) + InitHub(i) i F (i) (CLEVER)
Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • 3. Implementação de um sistema para validação do algoritmo: • - Armazenamento e análise de links Ranking = a * TEXT + b*AUT <url _origem> |<link_destino_1> |...|<link_destino_n> cod_pagina : peso_aut : peso_hub
Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações • 4. Elaboração de uma fórmula de ranqueamento para combinar: • o peso de IMPORTÂNCIA (AUT) • o peso de provável RELEVÂNCIA (TEXT) Ranking = a * TEXT + b*AUT
Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações 3 termos (4%) 2 termos (11%) 1 termo (85%) • 5. Avaliar o impacto desta combinação na eficácia de recuperação.
Metodologia Motivação e Problema Abordagem Detalhamento Contribuições e Originalidade Publicações Ranking = a * TEXT + b*AUT
Detalhamento Motivação e Problema Abordagem Metodologia Contribuições e Originalidade Publicações
Detalhamento Motivação e Problema Abordagem Metodologia Contribuições e Originalidade Publicações • Resultados do experimento
Detalhamento Motivação e Problema Abordagem Metodologia Contribuições e Originalidade Publicações Discussão dos resultados: • 0.85TEXT_0.15AUT, 0.75TEXT_0.25AUT, 0.65TEXT_0.35AUT obtiveram melhor performance de recuperação que a estratégia TEXT • 0.75TEXT_0.25AUT: melhoria mais significativacom relação a estratégia TEXT (CR_TEXT): • precisão@10= 9,42% • PMTS@10=14,64% • AUT: pior performance neste experimento pois despreza características intrínsecas da página TOP 100 autoridades foram “.com”
Contribuições e Originalidade Motivação e Problema Abordagem Metodologia Detalhamento Publicações • Um novo Algoritmo de Análise de Links: - O tempo de resposta atende aos requisitos de tempo dos EB comerciais (TR do HITS =~30 min) - Pesos de Hub e Autoridade calculados Off-line para todo o grafo. - GHHITS reduz os requisitos de memóriaprincipal necessários ao HITS estratégia de join orientado a blocos. • Elaboração de um Sistema para Armazenamento e Análise de Links. • Levantamento de características de um subgrafo da Web Brasileira (11,4%). - Número de forwardlinks e backlinks extrínsecos, intrínsecos. • Sistema de Julgamento de Relevância.