CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan

CS276Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan Lecture 8: Evaluation

Sec. 6.2 Nesta Aula • Como sabemos se nosso resultado é bom? • Avaliando um mecanismo de busca • Benchmarks • Precisão e retorno • Resumo dos resultados: • Fazendo os bons resultados utilizáveis para o usuário

AvaliandoMeCANISMOS de busca

Sec. 8.6 Medidas para um mecanismo de busca • Quão rápido é a indexação • Número de documentos/hora • (Tamanho médio de documento) • Quão rápido é a busca • Latência em função do tamanho de índice • Expressividade da linguagem de consulta • Capacidade de expressar a necessidade de informações complexas • Velocidade em consultas complexas • UI ordenado (Uncluttered UI) • É grátis?

Sec. 8.6 Medidas para um mecanismo de busca • Todos os critérios anteriores são mensuráveis: podemos quantificar a velocidade/tamanho • Nós podemos fazer expressividade precisa • A medida-chave: a felicidade do usuário • O que é isso? • Velocidade de resposta / tamanho do índice são fatores • Mas mesmo que incrivelmente rápidas, respostas inúteis não deixarão um usuário feliz • Precisamos de uma forma de quantificar a felicidade do usuário

Sec. 8.6.2 Medindo a felicidade de usuário • Questão: quem é o usuário que estamos tentando fazer feliz? • Depende da configuração • Sistema Web: • Usuário encontra o que quer e retorna ao sistema • Pode medir a taxa de retorno de usuários • Usuário conclui a sua tarefa - a pesquisa como um meio, não fim • Veja Russell http://dmrussell.googlepages.com/JCDL-talk-June-2007-short.pdf • Site de eCommerce: usuário encontra o que quer e compra • É do usuário final, ou do site eCommerce, cuja felicidade se mede? • Medida do tempo para comprar, ou fração de usuáris que se tornam compradores?

Sec. 8.6.2 Medindo a felicidade de usuário • Empresas (companhias/governo/academia): Se preocupam sobre “produtividade do usuário” • Quanto tempo meus usuários economizam quando procuram por informação? • Muitos outros critérios têm a ver com a largura de acesso, acesso seguro, etc

Sec. 8.1 Felicidade: não há como medir • Representante mais comum: relevância dos resultados de busca • Mas como medir relevância? • Vamos detalhar a metodologia aqui, em seguida, analisar os seus problemas • Medição da relevância requer 3 elementos: • Uma coleção de documentos de referência • Um conjunto referência de consultas • Uma avaliação, geralmente binária, de Relevante ou Não-Relevante para cada consulta e cada documento • Alguns trabalham com mais que binário, mas não é o padrão

Sec. 8.1 Avaliando um sistema de RI • Nota: a necessidade de informação é traduzida em uma consulta • A relevância é avaliada em relação à informação necessária não a consulta • Por exemplo, informação necessária: Estou procurando informações sobre se beber vinho tinto é mais eficaz para reduzir o risco de ataques cardíacos do que o vinho branco. • Consulta: vinho branco vermelho ataque cardíaco eficaz • Avaliar se o documento aborda a informação necessário, não se possui estas palavras

Sec. 8.2 Medida de relevância padrão • TREC - National Institute of Standards and Technology (NIST) rodou um grande teste base de RI por muitos anos • Reuters e outras coleções de documentos de referência usados • “Tarefas de recuperação” especificadas • As vezes como consultas • Um expert marca, para cada consulta e cada documento, Relevante ou Não-relevante • ou pelo menos um subconjunto de documentos que alguns sistemas retornam para a consulta

Sec. 8.3 Avaliação de recuperação não rankeada: Precisão ou Retorno • Precisão: fração de documentos recuperados que são relevantes = P(relevante|recuperado) • Retorno: fração de documentos relevantes que são recuperados = R(recuperado|relevante) • Precisão P = tp/(tp + fp) • RetornoR = tp/(tp + fn)

Sec. 8.3 Nós devemos, ao invés, medida de precisão para a avaliação? • Dada uma consulta, um sistema classifica cada documento como “Relevante” ou “Não-relevante” • A precisão de um sistema: a fração destas classificações são corretas • (tp + tn) / ( tp + fp + fn + tn) = exatidão • Precisão é uma medida de avaliação comumente usada em trabalhos de classificação de máquinas de aprendizagem • Por que não é uma medida de avaliação muito útil em RI?

Sec. 8.3 Por que não usar precisão? • Como construir um sistema de busca com precisão de 99.9999% com baixo orçamento…. • Pessoas que fazem recuperação de informação querem encontrar alguma coisa e tem uma certa tolerância a lixo. Snoogle.com Search for: 0 matching results found.

Sec. 8.3 Precisão/Retorno • Você pode ter alto retorno (mas baixa precisão) ao recuperar todos os documentos para todas as consultas! • Retorno é uma função crescente de número de documentos recuperados • Em um bom sistema, quando a precisão decresce o número de documentos recuperados aumenta (retorno aumenta) • Isto não é um teorema, mas um resultado com forte confirmação empírica

Sec. 8.3 Dificuldade no uso da precisão/retorno • Precisa da decisão humana de relevância • Pessoas não são assessores confiáveis • Decisão tem que ser binária • Decisões com nuances? • Fortemente enviesado por coleção/autoria • Resultados podem não traduzir de um domínio para outro

Sec. 8.3 Uma medida combinada: F • Medida combinada que avalia o intercâmbio precisão/retorno é a medida F (modo de ponderação harmônica): • Pessoas normalmente usam a medida balanceada F1 • i.e., com  = 1 ou  = ½ • Modo harmônico é uma média conservadora • Veja CJ van Rijsbergen, Information Retrieval

Sec. 8.3 F1 e outras médias

Sec. 8.4 Avaliando resultados rankeados • Avaliação de resultados rankeados: • O sistema pode retornar qualquer número de resultados • Por pegar vários dos top documentos retornados (nível de retorno), o avaliador pode produzir uma curva precisão/retorno

Sec. 8.4 Uma curva precisão-retorno

Sec. 8.4 Calculando a média sobre consultas • Um gráfico precisão-retorno para uma consulta não é uma coisa muito sensata de olhar • Você precisa fazer o cálculo da média de performace sobre uma grande grupo de consultas. • Mas existe um problema técnico: • Cálculos de precisão-retorno colocam alguns pontos no gráfico • Como determinar um valor (interpolado) entre os pontos?

Sec. 8.4 Precisão interpolada • Idéia: Se aumenta localmente a precisão com retorno aumentando, então você deve levar em conta isto • Então você tem o maximo de precisão para a direita dos valores

Sec. 8.4 Avaliação • Gráficos são bons, mas pessoas querem medidas de resumo! • Precisão no nível de recuperação fixo • Precisão-em-k: Precisão dos top k resultados • Talvez apropriado para a maioria das buscas web: o que todo mundo quer são boas combinações na primeira ou segunda páginas de resultados • Mas: calcula mal a média e tem o parâmetro arbitrario de k • Média de Precisão interpolada de ponto 11 • A medida padrão em competições atuais TREC : você pega a precisão em 11 pontos de recuperação variando de 0 a 1 por décimos de documentos, usando interpolação (o valor para 0 é sempre interpolado!), e calcula a média deles • Avalia a performace de todos os níveis de retorno

Sec. 8.4 Tipicas (boas) precisões de 11 pontos • Precisão SabIR/Cornell 8A1 11pt para TREC 8 (1999)

Sec. 8.4 Mais medidas de avaliação… • Meio termo da precisão média (MAP – Mean Average Precision) • Média do valor de precisão obtido para os top k documentos, cada vez que um documento relevante é recuperado • Evita interpolação, use níveis de retorno fixo • MAP para coleção de consulta é média aritmética • Macro-média: cada consulta conta igualmente • Para cada consulta (pegamos os k documentos), calculamos a precisão obtida. Ao final calculamos a média da precisão de todas as consultas. • Precisão R • Se é conhecido (embora talvez incompleta) o conjunto de documentos relevantes de tamanho Rel, então calcula a precisão dos top Rel documentos retornados • Sistema perfeito pode pontuar 1.0.

Sec. 8.4 Variação • Para uma coleção de teste, é usual que um sistema seja pobre em alguma necessidade de informação (ex., MAP = 0.1) e excelente em outras (ex., MAP = 0.7) • De fato,é normal o caso em que a variação da performance do mesmo sistema em todas as consultas é muito maior do que a variação de diferentes sistemas na mesma consulta. • Ou seja, há necessidade de informações fáceis e difíceis!

CrIANDO COLEÇÕES DE TESTES PARA AVALIAÇÃO DE RI

Sec. 8.5 Coleções de teste

Sec. 8.5 De coleções de documentos para coleções de teste • Ainda precisa • Consultas de teste • Avaliações de relevância • Consultas de teste • Deve ser pertinente para documentos disponíveis • Consultas relacionadas a engenharia em um domínio de engenharia • Melhor concebido por especialistas do domínio • Termos de consulta aleatórios geralmente não é uma boa idéia • Avaliações de relevância • Julgamento por homem, consumo de tempo

Sec. 8.5 Unidade de avaliação • Podemos computar precisão, retorno, F, e curva ROC para diferentes unidades. • Unidades possíveis • Documentos (mais comum) • Fatos (usado em algumas avaliações TREC) • Entidades (ex., companhias de carro) • Pode produzir resultados diferentes. Por quê?

Sec. 8.5 Medida Kappa para inter-julgar (des)acordo • Medida Kappa • Medida de acordo entre julgadores • Projetado para julgamentos categóricos • Corrige a probabilidade de acordo (Corrects for chance agreement) • Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] • P(A) – proporção de vezes que os julgadores concordam • P(E) – quando o acordo ocorre por acaso • Kappa = 0 por acaso, 1 para acordo total.

Sec. 8.5 P(A)? P(E)? Medida Kappa: Exemplo

Sec. 8.5 Exemplo Kappa • P(A) = 370/400 = 0.925 • P(não relevante) = (10+20+70+70)/800 = 0.2125 • P(relevante) = (10+20+300+300)/800 = 0.7878 • P(E) = 0.2125^2 + 0.7878^2 = 0.665 • Kappa = (0.925 – 0.665)/(1-0.665) = 0.776 • Kappa > 0.8 = bom acordo • 0.67 < Kappa < 0.8 -> “conclusões preliminares” (Carletta ’96) • Depende do propósito de estudo • Para >2 julgadores: média de pares kappas

Sec. 8.2 TREC • Tarefa ad hoc TREC para os primeiros 8 TRECs é tarefa padrão de RI • 50 informações necessárias detalhadas de um ano • Avaliação humana de resultados retornados agrupados • Mais recentemente outras coisas relacionadas: Web track, HARD • Uma consulta TREC (TREC 5) <top> <num> Número: 225 <desc> Descrição: Qual é a função principal da Federal Emergency Management Agency (FEMA) e o nível de financiamento previsto para atender situações de emergência? E também, que recursos estão disponíveis para a FEMA tais como pessoas, equipamentos, facilidades? </top>

Sec. 8.2 Benchmarks padrões de relevância: Outros • GOV2 • Outra coleção TREC/NIST • 25 milhões de páginas web • Maior coleção que é facilmente disponível • Mas ainda menor em índice que Google/Yahoo/MSN em 3 ordens de magnitude • NTCIR • Idioma do leste asiático e recuperação de informação multilíngüe • Cross Language Evaluation Forum (CLEF) • Esta série de avaliações é concentrada em idiomas europeus e recuperação de informação multilíngüe. • Muitos outros

Sec. 8.5 Acordo entre julgadores: TREC 3

Sec. 8.5 Impacto do acordo entre julgadores • Impacto na medida de performance absoluta pode ser significativo (0.32 vs 0.39) • Pouco impacto no rankeamento de sistemas diferentes ou performance relativa • Suponha que nós queremos saber se um algoritmo A é melhor que o algoritmo B • Um experimento de recuperação de informação padrão nos dará uma resposta confiável para esta questão.

Sec. 8.5.1 Critica da relevância pura • Relevância vs Relevância marginal • Um documento pode ser redundante mesmo se for altamente relevante • Duplicatas • A mesma informação de diferentes fontes • Relevância marginal é uma melhor medida de utilidade para o usuário. • Usando fatos/entidades como unidades de avaliação mais diretamente mede a verdadeira relevância. • Mas, mais difícil para criar um conjunto de avaliação • Veja a referência Carbonell

Sec. 8.6.3 Podemos evitar o julgamento humano? • Não • Deixa o trabalho experimental difícil • Especialmente em larga escala • Em algumas configurações muito específicas, podemos usar proxies • Ex.: para recuperação aproximada de espaço vetorial, nós podemos comparar a proximidade de distância por cosseno dos documentos mais próximos daqueles encontrados por um algoritmo de recuperação aproximada • Mas, uma vez que testamos coleções, podemos reusá-las (contanto que nós não a super treinarmos muito mal)

Sec. 8.6.3 Avaliação em grandes mecanismos de busca • Mecanismos de busca possuem coleções de teste, de consultas e resultados rankeados à mão • Retorno é difícil para medir na web • Mecanismos de busca freqüentemente usam precisão dos top k, ex., k = 10 • . . . Ou medidas que recompensam você mais por receber o rank 1 direito do que receber o rank 10 direito. • NDCG (Normalized Cumulative Discounted Gain) • Mecanismos de busca também usam medidas baseadas na não-relevância. • Cliques no primeiro resultado • Não muito confiável se você olhar em um simples clique … mas razoavelmente confiável no conjunto. • Estudos do comportamento do usuários em laboratório • Teste A/B

Sec. 8.6.3 Teste A/B • Propósito: Testa uma inovação única • Pré-requisito: Você tem um grande mecanismo de busca em funcionamento. • Possui a maioria dos usuários utilizando o sistema antigo • Desvia uma pequena parte do tráfego (ex., 1%) para o novo sistema que inclui a inovação • Avalia com uma medida “automática” como cliques no primeiro resultado • Podemos agora verificar diretamente se a inovação melhora a felicidade do usuário. • Provavelmente a metodologia de avaliação que grandes mecanismos de busca confiam mais • A principio menos poderoso que fazer um análise de regressão multivariada, mas, mais fácil de entender

Sec. 8.7 Apresentação dos Resultados

Sec. 8.7 Resumo dos resultados • Tendo rankeado os documentos que correspondem com a consulta, nós queremos apresentá-los em uma lista de resultados • Mais comumente, uma lista dos títulos de documentos mais um breve resumo, conhecido como “os 10 links azuis”

Sec. 8.7 Resumos • O título é freqüentemente extraído automaticamente do metadado do documento. E sobre os resumos? • A descrição é crucial. • Usuário pode identificar hits como bom/relevante baseando-se na descrição. • Dois tipos básicos: • Estático • Dinâmico • Um resumo estático de um documento é sempre o mesmo, independentemente da consulta que trouxe o documento • Um resumo dinâmico é uma tentativa dependente de consulta para explicar porque o documento foi recuperado para a consulta em questão

Sec. 8.7 Resumos estáticos • Em sistemas típicos, o resumo estático é um subconjunto do documento • Heurística simples: as primeiras 50 (ou outro valor – pode ser variado) palavras do documento • Resumo é pegado na hora da indexação • Mais sofisticado: extrair de cada documento um conjunto de sentenças “chave” • Heurística NLP simples para pontuar cada sentença • Resumo é composto de frases com maior pontuação. • O mais sofisticado: NLP usado para sintetizar um resumo • Raramente usado em RI; cf. sumarização de texto funciona (cf. summarization work)

Sec. 8.7 Resumos dinâmicos • Apresenta uma ou mais “janelas” no documento que contém muitos dos termos da consulta • Fragmentos “KWIC” : Palavra chave na apresentação do Contexto

Sec. 8.7 Técnicas para resumos dinâmicos • Encontre pequenas janelas no documento que contém os termos da consulta • Requer procura rápida de janela no cache do documento • Pontua cada janela da consulta (Score each window wrt query) • Usa várias características como tamanho de janela, posição no documento, etc. • Combina recursos através de uma função de pontuação • Desafios na avaliação: julgar resumos • Mais fácil fazer comparações de pareamento (pairwise) do que avaliações de relevância binárias

Quicklinks • Para um consulta navegacional como united airlines a necessidade dos usuários provavelmente serão satisfeitas por www.united.com • Quicklinks provêem dicas navegacionais em suas páginas principais

Apresentação alternativa de resultados? • Uma área ativa na pesquisa IHC • Uma alternativa: http://www.searchme.com / copia a idéia do Apple’s Cover Flow para resultados de busca • (searchme recentemente ficou fora de serviço)

CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan