660 likes | 829 Views
Mecanismos de Busca na Web. Tópicos. Internet :Informação Caótica Mecanismos de Busca : Informação Organizada O que são Mecanismos de Busca “searchs” Tipos e Finalidades Estratégia de Busca Exercitando os conceitos ( exemplos ) Referências. Internet - Informação Caótica.
E N D
Mecanismos de Busca na Web Centro de Computação
Tópicos • Internet :Informação Caótica • Mecanismos de Busca : Informação Organizada • O que são Mecanismos de Busca “searchs” • Tipos e Finalidades • Estratégia de Busca • Exercitando os conceitos ( exemplos ) • Referências Centro de Computação
Internet - Informação Caótica • Web : estimado 800 milhões !? de páginas (não é mais : são estimados 1 bilhão em fev/00 ) fonte: Inktomi and the NEC Research Institute • Crescimento exponencial: 1/3 ao ano (últimos 2 anos). • 80% dos usuários internet encontram a informação que procuram através de sites de busca ( a maior parte consegue fazê-lo de 10 a 15 minutos ) fonte: Inst. de Tecn.da Georgia/EUA Centro de Computação
Internet - Informação Caótica • O ciclo da informação na Internet : Pessoas Pessoas Informação conhecimento comunicação consumo Informação Qualificada Internet Internet Centro de Computação
Pausa para reflexão • pesquisa Cadê/Ibope: • dos internautas brasileiros 63% são do sexo masculino • 68% são jovens de idade 15 a 29 anos • 79% livre de compromissos (solteiros ou separados) • 59% tem renda que variam de 10 a 50 salários mínimos Centro de Computação
Internet - Informação Caótica • A Internet (teia) é um grande banco de dados de informação sem um padrão de catalogação (caótica). • Difícil localização de documentos, seu autor, data de validade (da informação), etc ... • É como uma enorme biblioteca sem um catálogo de referência central e os livros dispostos desordenadamente. Centro de Computação
Mecanismos - Informação Organizada • Entram em cena os Mecanismos de Busca (catálogo central de uma Biblioteca). • Websites com recursos sofisticados: • banco de dados • linguagens • pesquisa simples e avançada • velocidade • tratamento diferenciado ( personalizado ) • grandes portais (vendas, serviços, help,etc) Centro de Computação
Mecanismos - Informação Organizada • A aprendizagem de técnicas e familiarização dos Mecanismos de Busca são itens essenciais para a economia de horas em uma pesquisa. • A indexação na web é um trabalho gigantesco e interminável. Centro de Computação
Mecanismos - Informação Organizada • A localização, com precisão, de documentos ( páginas ou arquivos ) que contenham o termo que você deseja depende, basicamente, de 2 fatores : • assunto disponível e indexado ou selecionado por algum mecanismo de busca. • as palavras chaves (argumento da pesquisa) são suficientemente específicos para obtenção de um resultado satisfatório. Centro de Computação
Mecanismos - Informação Organizada • Muitas vezes, encontrar um argumento de pesquisa específico para aquilo que procuramos não é uma tarefa fácil. • Ex: "esquizofrenia" é um bom argumento; "New York" é um argumento ruim. Centro de Computação
Pausa para reflexão • Um dos novos sites que utiliza tecnologias avançadas para gerar resultados supreendentes em termos de relevância é o Google. • Segundo a empresa, seu mecanismo de busca calcula os resultados tomando por base uma equação de 500 milhões de variáveis e mais de dois bilhões de termos. Centro de Computação
O que é Mecanismo de Busca • É um grande índice (catálogo de biblioteca). • Faz todo trabalho de organização das páginas espalhadas pela Web. • Fazem o trabalho de pesquisa nos mais de 800 milhões de documentos. • São os grandes "culpados" pelo crescimento exponencial da Internet. Centro de Computação
Mecanismos de Busca - Perfil • Garimpar a internet em busca de qualidade / quantidade de informação e organizá-la em um único local ( banco de dados ). • Conquistar a preferência do público ( muitas informações, hospedagem de websites e conta de email gratuitas, seções direcionadas a determinadas faixas etárias, etc ). • Sofisticados : linguagem natural ( coloquial ). Centro de Computação
Mecanismos de Busca - Perfil • Explorar o potencial comercial da Web (as pessoas são potenciais consumidores independente da informação que procuram). • Estão sempre vendendo alguma coisa para você (já experimentou fazer uma busca com a palavra "carro”, “ferrari” ?). • Maiores catálogos de vendas de produtos encontrados em um só lugar. Centro de Computação
Mecanismos de Busca - Perfil Fonte: searchengine watch Centro de Computação
Mecanismos de Busca - Perfil Fonte: searchengine watch Centro de Computação
Mecanismos de Busca - Perfil • Alguns dados : • Yahoo - 50 milhões de visitas/mês. • UOL - 45 milhões de visitas/mês. • UNICAMP - 1,8 milhões de visitas/mês. • 60% da web é indexada. • Mais de 80% da web possui informação não qualificada • Cresce 1/3 ao ano (dados 2 últimos anos) • Estatísticas mostram que 7% dos usuários navegam além da 3ª página de resultados) Centro de Computação
Tipo de Mecanismos - Índices • Genéricos ou Especializados • Spiders / Robôs varrem a internet buscando páginas, indexando-as e criando seu próprio banco de dados. • Algoritmos de busca que acham e trazem documentos relevantes para a pesquisa do usuário. Centro de Computação
Tipo de Mecanismos - Índices • Algoritmos comuns de pesquisa: • número de ocorrências do argumento de pesquisa (maior probabilidade de ser um documento que você procura) • argumento encontrado no TITLE da página • argumento em negrito • tamanho de fonte maior • mede popularidade da página (número de links que apontam para ela) Centro de Computação
Tipo de Mecanismos - Índices • Principais diferencas entre eles: • Capacidade de armazenagem no banco de dados. • Frequência de atualização. • Capacidade de busca (amplitude). • Velocidade de recuperação de resultados • Interface (design) na mostra dos resultados. • Recursos avançados (tradução, linguagem natural, operadores booleanos). Centro de Computação
Tipo de Mecanismos - Índices • Cobrem todo tipo de assunto possível, não fazem distinção entre os sites que indexam ( pesquisa por softwares ) . • Quando fazemos a pesquisa através de um mecanismo de busca NÃO o fazemos "ao vivo" e sim recuperamos as informações gravadas nos banco de dados. Centro de Computação
Tipo de Mecanismos - Índices • são indicados quando pesquisamos um documento conhecido, imagens, softwares ou um trecho de alguma informação pois não requerem um conhecimento prévio do assunto. • Os índicesespecializados são numerosos e em grande parte desconhecidos. Centro de Computação
Tipo de Mecanismos - Índices • Os índicesespecializados não se preocupam em indexar toda a Web (focam sua busca dentro de um assunto definido, uma área geográfica ou tipo de recurso). • Os índicesespecializados são, na maioria das vezes, mais eficientes do que os mecanismos tradicionais ( podem ser um ponto de partida para sua pesquisa ). Centro de Computação
Tipo de Mecanismos - Índices • Exemplos de índices genéricos • AltaVista (http://www.altavista.com) • Excite (http://www.excite.com) • FAST (http://www.alltheweb.com) • Google (http://www.google.com) • HotBot (http://www.hotbot.com) • Infoseek (http://infoseek.go.com) • Northern Light (http://www.northernlight.com) Centro de Computação
Tipo de Mecanismos - Índices • Exemplos de índices específicos • medicina • http://www.medscape.com/ • http://www.planetavida.com.br/ • música • http://www.mp3.com • softwares • http://www.tucows.com • pesquisas • http://www.cnpq.br Centro de Computação
Tipo de Mecanismos - MetaSearchs • não possuem índices próprios • submetem as perguntas formuladas a vários indexadores da Web, coletam os resultados obtidos, fazem uma formatação, eliminando resultados duplicados e geram uma listagem final. • adotam um mínimo denominador comum na forma como as pesquisas são submetidas. Centro de Computação
Tipo de Mecanismos - MetaSearchs • O serviço de metabusca Profusion, http://www.profusion.com , é um dos mais conceituados da rede. • Brasil : MetaMiner ( http://www.miner.com.br ) • programas em seu computador que realizem metabuscas ( gratuitos ). Ex: Copernic99 - http://www.copernic.com Centro de Computação
Tipo de Mecanismos - Diretórios • Funcionam de forma diferente dos Índices. • Organizados hierarquicamente. • A busca e organização das informações é feita por seres humanos e somente a home page de um site é indexada. • Vantagem : probabilidade reduzida dos resultados estarem fora do contexto. Centro de Computação
Tipo de Mecanismos - Diretórios • Possuem um mecanismo de busca interno. • A informação é dividida em categorias. • P. ex.: "Elvis Presley" encontramos em "sociedade e cultura" "musica" "cantores" • Funcionam como catálogos on-line e são um grande potencial comercial para os websites em geral (visibilidade na lista de links). Centro de Computação
Tipo de Mecanismos - Diretórios • São melhores para pesquisa em assuntos gerais. O prestígio está exatamente na informação qualificada para seus usuários. • Exemplos de Diretórios : • LookSmart ( http://www.looksmart.com ) • Cadê ( http://www.cade.com.br ) • Radix ( http://magellan.excite.com/ ) • Open Directory ( http://dmoz.org ) • Yahoo ( http://www.yahoo.com ) Centro de Computação
Tipo de Mecanismos - Dir. Abertos • Especialistas nos assuntos compilam as informações com maior qualidade e precisão • Relacionam, fazem anotações, permitem outros especialistas se cadastrarem e abrirem novos assuntos ( manten-se a estrutura) • Exemplos: • IVOX ( http://www.ivox.com.br ) • About.com (http://about.com) • WWW Virtual Library (http://www.vlib.org) Centro de Computação
Tipo de Mecanismos - Desvantagens • Índices: os programas (spiders ou robôs) não possuem dissernimento sobre o que é apresentado aos usuários (qualidade dos resultados ). • Diretórios: limitados a uma pequena parcela da Internet pois todo trabalho é feito por seres humanos (classificação e análise). Centro de Computação
Mecanismos - Estratégia de Busca • Formule uma questão e seu escopo. • Ex: “quais são as escolas de samba do carnaval do Rio de Janeiro?” • Identifique os conceitos importantes dentro da questão (palavras chave). • Ex: “escolas de samba”, “Rio de Janeiro” • Considere possíveis sinônimos e variações das palavras chaves. • Ex: “carnaval carioca” (não é um bom argumento) Centro de Computação
Mecanismos - Estratégia de Busca • Uma estratégia bem elaborada é de suma importância ( base de informação enorme, amorfa e em evolução ). • Na escolha no mecanismo de busca optar por aqueles que oferecem mais possibilidades de busca ( pesquisa avançada ). Centro de Computação
Mecanismos - Estratégia de Busca • Identificar mecanismosde busca especializados no assunto ( música, informática, negócios, medicina, cultura, etc ). • As técnicas básicas de busca atendem a grande maioria dos usuários. • Verifique sempre o help / ajuda . Centro de Computação
Mecanismos - Estratégia de Busca • Utilize frases exatas. P. ex: “As invenções de Leonardo da Vinci” ao invés de “Leonardo da Vinci” • Palavras em minúsculo --> maiúsculo /minúsculo • Palavras em maiúsculo --> palavras que batem exatamente o que foi digitado. Centro de Computação
Mecanismos - Estratégia de Busca • Procurar por bookmarks (relação de links) de outros usuários na internet. P. ex.: "music links", ”links de música", “music bookmarks”, etc ... Centro de Computação
Pesquisando na Web - Estrutura • Podemos pesquisar uma simples palavra ou uma frase em uma página Web. O resultado pode ser encontrado em uma das seções abaixo : • Título • Autor • Descrição • Corpo do documento Centro de Computação
Pesquisando na Web - Estrutura • Exemplo : “tomates” • Resultado da pesquisa: • doc. de título : “Filme -Tomates Verdes Fritos” • doc. que fala sobre o assunto: “cultivo de tomates” Centro de Computação
Pesquisando na Web - Pesquisa Booleana • Pesquisa Booleana : • use as palavras AND, OR, NOT para expandir e limitar as buscas. • Permite combinar os termos de pesquisa. • Mais úteis em buscas complexas. • São conhecidos também como Operadores Booleanos. Centro de Computação
Pesquisa Booleana - “AND” • AND • combina palavras e/ou frases, permitindo que ambas estejam presentes nos resultados. • “eu estou interessado em soja que são transgênicas” • sintaxe: “soja AND transgênica” Centro de Computação
Pesquisa Booleana - “OR” • OR • combina palavras e/ou frases, trazendo resultados que possuam pelo menos uma das combinações. • “eu estou interessado em soja ou produtos transgênicos” • sintaxe:“soja OR transgênico” Centro de Computação
Pesquisa Booleana - “NOT” • NOT • exclue palavras e/ou frases dos resultados da pesquisa. • “estou interessado em informações sobre soja excluindo-se docs que citam problemas transgênicos” • sintaxe: “soja NOT transgênico” Centro de Computação
Pesquisa Booleana - Combinação • AND, OR e NOT • “Eu quero aprender a cozinhar com ervas ou pimenta” • sintaxe: “cozinhar AND (ervas OR pimenta)” • ou “receita AND (ervas OR pimenta)” Centro de Computação
Pesquisando na Web - Adição/Subtração • adição “+” antes de uma palavra chave ou frase obriga que ela apareca entre os resultados relevantes. Ex: “+picanha invertida”. • subtração “-” elimina dos resultados a palavra chave ou frase. Ex: “picanha -mostarda” • CUIDADO !!!!!! Centro de Computação
Pesquisando na Web - Funções especiais • TITLE - pesquisar pr título do documento • Ex: “TITLE:Gazeta Mercantil” • HOST - traz páginas indexadas de um site. • Ex: “HOST:www.unicamp.br nuclear” • URL - traz páginas que contém este parâmetro no texto de sua URL. • Ex: “URL:microsoft” traz TODAS as páginas indexadas que contém “microsoft” no endereço. • “http://www.microsoft.com” ou • “http://www.software.com/microsoft” Centro de Computação
Pesquisando na Web - Funções especiais • LINK - identifica todas as páginas que possuem um link definido neste parâmetro. • Ex: “LINK: mailto:gian@ccuec.unicamp.br” • IMAGE - traz páginas que contém arquivos com os nome definidos neste parâmetro. • Ex: “IMAGE:basket*.jpg” • Ex: “IMAGE:vinci” Centro de Computação
Pesquisando na Web - Proximidade • NEAR, ADJACENT, FOLLOWED BY - alguns sites permitem que você encontre páginas com as palavras de busca próximas uma da outra ( evita-se encontrar documentos em que estas palavras aparecem sem ligação entre elas ). • Ex: “cpi NEAR narcotráfico” Centro de Computação
Pesquisando na Web - Perfil • Assuntos relacionados ao argumento de pesquisa. • Ex: viagem (viagem aérea, descontos de viagem, agências de viagem, etc ...). Altavista, GoTo, HotBot, Infoseek, Excite; • Esquematização de resultados permite que somente 1 página de cada site seja incluído nos Top 10 dos resultados da pesquisa. • Ex: Altavista, GoTo, HotBot, Infoseek, Excite, Northern Light, Google (faz identação quando existe mais de 1 página de um mesmo site); Centro de Computação
Pesquisando na Web - Perfil • Busca automática de frases : a utilização de frases pode obter melhores resultados nas pesquisas. • Ex: Altavista, Google; Centro de Computação