910 likes | 1.01k Views
Sistemas de RI na Web. Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França. Roteiro. Introdução Objetivos Entendendo a Web Arquiteturas Técnicas Estratégia de Busca Crawlers Browsing Metabuscas Conclusão . A Web.
E N D
Sistemas de RI na Web Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França
Roteiro • Introdução • Objetivos • Entendendo a Web • Arquiteturas • Técnicas • Estratégia de Busca • Crawlers • Browsing • Metabuscas • Conclusão
A Web Pode ser vista como uma grande base de dados não estruturada e ubíqua Surge a necessidade de ferramentas para gerenciar, buscar e filtrar informações
Formas de busca na Web Engenhos de busca Diretórios de sites Exploração de hyperlinks
+1.000.000.000 de buscas sãorealizadaspordia Google data, September 2010
+1.000.000.000 depessoas usam o googlea cadasemana Google data, September 2010
20% das buscas feitasnosúltimos 90 diasnuncatinhamsidofeitas antes Google Internal Data, April 2010
10 bilhões de imagens estãoindexadas no Google Images* (eram 250 milhõesem 2001) * TechCrunch, July 2010
115.000 filmes é a equivalência do total de uploads de vídeosfeitos no YouTube pormês
700 bilhões de execuções de vídeosforamrealizadas no YouTube em 2010
2.9 bilhões de horas sãogastaspormêsvendoosvídeos do YouTube
quem tem acesso a esseconteúdo? todomundo! (excetoosvídeos do YouTube)
600 milhões de pessoas estãocadastradas no facebook* (250 milhõesentraramem2010) *Fim de 2010
9.3 bilhões de horas sãogastaspormêsnaspáginas do site
30 bilhões de documentos como links enotíciassãocompartilhados a cadamês no facebook
Quem tem acesso a esseconteúdo? bind eosusuários do facebook
Desafios Grande quantidade de dados Dados voláteis (mudammuito rápido) Acesso ao conteúdo produzido em redes sociais Conteúdoheterogêneo(multimídia, linguagem) Informações redundantese não estruturadas
Caracterização da WEB • Mensurando a WEB • Organização atual da WEB • Arquiteturas
Mensurando a WEB Qual o número de computadores conectados a internet? 500 milhões de hosts, em mais de 200 países.
Mensurando a WEB Qual o número de websites na internet? • O Netcraft roda desde agosto de 1995 • Em maio de 2011 foram recebidas respostas de mais de 324 milhõeswebsites.
Organização atual da WEB • WEB é uma coleção não controlada de documentos. • Inserção de documentos • Formato dos documentos • Engenhos de busca • Recuperar informações na WEB • Permitir a consulta por usuários
Engenhos de Busca • Arquitetura • Centralizada • Usacrawlers(rastreadores) • Distribuída • A busca é realizada utilizando um esforço de coordenação entre vários gatherers e brokers
Arquitetura Centralizada • Crawlers (robots,spiders, wanderers) • Buscam páginas na WEB • Enviam para um servidor principal • Roda em um sistema local • Envia requisições servidores web remotos
Arquitetura Centralizada • Indexer • Cada página baixada é processada localmente • A informação indexada é salva e a página é descartada • Exceção: alguns sites de busca mantêm um cachê local algumas cópias das páginas mais populares
Arquitetura Centralizada • Principais dificuldades • Recolha dos dados • Natureza dinâmica da WEB • Volume de dados • Sobrecarga nos servidores web • Requisições de diferentes crawlers • Tráfego na WEB • Objetos recolhidos pelos crawlers • Informações recolhidas independentemente • Sem coordenação
Arquitetura Distribuída • Novos elementos • Gatheres (recolhedores) • Brokers
Arquitetura Distribuída • Gatherers (recolhedores) • Coletar e extrair informações de um ou mais servidores WEB • Tempos de coletas são periódicos • definidos pelo sistema
Arquitetura Distribuída • Brokers • Obtém informações extraídas pelo Gatherer • Recuperam informações de Brokers • Mecanismo de indexação • Atualizando índices • Interface de consulta
Arquitetura Distribuída • Vantagens • Redução na carga dos servidores web • Gatherers podem rodar em um servidor web sem gerar tráfego externo • Redução no tráfego da rede • Arquitetura centralizada retém todo os documentos, enquanto que a arquitetura distribuída move apenas o que é extraído pelos Gatherers • Evita trabalho redundante • Um gatherer envia informações para vários brokers, reduzindo repetição do trabalho
Base dos algoritmos mais utilizados Considerar a relevância de web pages por meio dos links • Incomming links • Outgoing Links
Conceitos Básicos Uma página da web valiosa e informativa é geralmente apontado por um grande número de hiperlinks, ou seja, ele tem um grande indegree (“grau de entrada”). Essa página é chamada um “authority” Uma página da Web que aponta para muitas páginas “authority” é um recurso útil e é chamado de “hub”. Um “hub”tem geralmente uma grande outdegree (“grau de saída”). LINK ANALYSIS: HUBS AND AUTHORITIES ON THE WORLD WIDE WEB [CHRIS H.Q. DING, HONGYUAN ZHA , XIAOFENG HE , PARRY HUSBANDS , ANDHORST D. SIMON]
Hypertext Induced Topic Selection (HITS) O algoritmo foi criado por Jon Kleinberg Precursor do Page Rank, utilizado pelo Google. • O algoritmo atribui pontuações de importância para os hubs eauthorities seguindo este conceito: Uma boa authority deve ser apontada por vários bons hubs e um bom hub deve apontar para várias boas authorities.
Hypertext Induced Topic Selection (HITS) • Determinar subgrafo (S) composto pelo conjunto de páginas retornadas em uma busca e páginas que apontam e são apontadas por páginas deste conjunto. • Realizar várias iterações para determinar um “valor hub” e um “valor authority” para cada página do subgrafo. Esses valores são normalizados. • O algoritmo aplica iterações até que pesos de hub e authority cheguem a convergir, isto é, até que estes pesos não variem acima de um valor pré-determinado.
Hypertext Induced Topic Selection (HITS) Todo este processamento, que leva cerca de alguns minutos, é realizado no momento da consulta. Por esta razão o HITS não atende ao requisito de tempo imposto pelos engenhos de busca comerciais, que é de poucos segundos. • Algumas extensões do algoritmo HITS que adicionaram análise de conteúdo à análise puramente estrutural foram desenvolvidas pelo projeto CLEVER da IBM. Combinando Informações Textuais e Estruturais na Recuperação de Documentos Web. [Roberta de Souza Coelho, Marcelo Nery dos Santos,Silvio Romero Lemos Meira]
PageRank PageRank™é uma família de algoritmos de análise de rede que dá pesos numéricos a cada elemento de uma coleção de documentos hiperligados, como as páginas da Internet, com o propósito de medir a sua importância nesse grupo por meio de um motor de busca. O processo do PageRank™ foi patenteado pela Universidade de Stanford. Somente o nome PageRank™ é uma marca registrada do Google.
PageRank e Google • O sistema PageRank é usado pelo motor de busca Google para ajudar a determinar a relevância ou importância de uma página. • O Google mantém uma lista de bilhões de páginas em ordem de importância, isto é, cada página tem sua importância na Internet como um todo. • A importância se dá pelo número de votos que uma página recebe. Um voto é um linkem qualquer lugar da Internet para aquela página. • Os votos de páginas de alta popularidade na Web contam mais do que os votos de sites de baixa popularidade. • Quanto mais links uma página de Web oferece, mais diluído seu poder de votação. • Uma boa unidade de medida para definir o PageRank™ de uma página pode ser a percentagem (%) de páginas que ela é mais importante.
PageRank e Google O PageRank faz uma avaliação objetiva da importância de páginas da web, resolvendo uma equação de mais de 500 milhões de variáveis e 2 bilhões de termos. O mecanismo de pesquisa do Google também analisa o conteúdo completo de uma página e os fatores em fontes, subdivisões e a localização exata de cada palavra.
Quais os sites com maior PageRank? O website Search Engine Genie atualizou sua lista dos websites com maior PageRank e tornou a informação pública no dia 20 de janeiro de 2011.
Google Caffeine • Exibe taxa maior de resultados mais recentes devido sua atualização mais constante. • Ocupa cerca de 100 milhões de gigabytes de armazenamento em um banco de dados e adiciona novas informações auma taxa de centenas de milhares de gigabytes por dia.
Google • Vídeo – Como Google funciona http://www.google.com/howgoogleworks/ • É possível manipular o PageRank™ atribuindo links descontextualizados com o objetivo da página, modificando a ordenação de resultados na pesquisa pelo Google e induzindo a resultados pouco relevantes ou tendenciosos. • Googlebombing failure ou miserablefailure: retornava biografia oficial da Casa Branca para o presidente dos EUA, George W. Bush e em sequência a página de Michael Moore, inimigo declarado do presidente dos EUA.
Crawlers • SPIDERS, BOTS, etc.