410 likes | 553 Views
Introdução a. Recuperação de Informação. Agentes baseados em. Recuperação de Informação. Active Search Agent. Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE. Novembro 2000. docs. Arquivos Invertidos. termo1 - doc1, doc3,... termo2 - doc41, ...
E N D
Introdução a Recuperação de Informação Agentes baseados em Recuperação de Informação Active Search Agent Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000
docs. Arquivos Invertidos termo1 - doc1, doc3,... termo2 - doc41, ... ... - ... BI BI docs. relevantes Necessidade do Usuário (palavras-chave, profile, etc) Informação Armazenada + = BI BI Recuperação de Informação • Sistemas tradicionais de Recuperação de Informação (RI) usam termos para indexação e recuperação dos dados (há 20 anos !!!) • Termos são palavras ou conjuntos de palavras de um documento • Indexação armazenamento da informação nas bases de índice • Recuperação 2
Stemming e n-grams redução de termos. Ex: CONNECT CONNECTED CONNECTING CONNECTION CONNECTIONS • TF(w): freqüência da palavra w no doc. • DF(w): freqüência de w em D • D = total de documentos Recuperação de Informação • Stop List lista de palavras comuns, irrelevantes • Term Frequency-Inverse Document Frequency (TFIDF): • atribuição de peso aos termos Artigos: a, os, ... Pronomes: meu, aquele, ... Advérbios: muito, bem, ... ... 3
Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados Recuperação de Informação • Precisão • Documentos relevantes retornados dividido pelo número total de retornados • Cobertura • Total de documentos relevantes retornados dividido pelo número total dos relevantes by Flávia (fab@cin.ufpe.br) 4
Recuperação de Informação Outros Conceitos: • Robô (ou spider) programas que percorrem links na web, geralmente com objetivo de indexá-la • Corpus conjunto de documentos etiquetados • Filtragem à partir do profile(gosto) do usuário, documentos interessantes são selecionados • Routing faz a mesma coisa que filtragem, a medida que os documentos vão sendo adicionados ao Corpus • Arquivo invertido termos (índices) mapeando os documentos em que aparecem 5
Recuperação de Informação • Base de Índice banco de dados de um sistema de índices • Similaridade o grau de quanto 2 documentos são semelhantes • Co-Citação (co-citation) dois documentos são citados por um mesmo documento • Thesaurus identifica o relacionamento entre termos • Trec (Text Retrieval Conference) conferência de IR para demonstração de experimentos com grandes banco de dados, banco de dados multimídia, etc 6
Usuário Resultado Consulta w e b Documentos + URLs Casamento de Termos BI BI Índices + URLs Robôs Recuperação de Informação Engenhos de Busca • Ex: Radix, Altavista Busca palavras-chave Interface recuperação indexação Stop List 7
Recuperação de Informação • Representação Física de Documentos Textuais Digitais • Texto completo • Difícil de manipular • Centróide - conjunto de termos com pesos associados ou não • Perda de semântica Centróide honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates 8
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista doc1 doc2 Recuperação de Informação Modelos • Motivação: que documentos são relevantes a uma consulta do usuário ? Ou qual o grau de semelhança entre dois documentos ? • Surgiu a necessidade de criar modelos para interpretar e manipular documentos • Representação Lógica (Modelos) de Documentos Textuais Digitais • Framework para manipular e interpretar documentos • Várias abordagens: teoria dos conjuntos, álgebra linear, probabilidade, etc • Ex: Vector Space Mostraremos alguns deles !! 9
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Modelos • Definição Formal de modelo em IR: • É definido pela quádrupla [ D, Q, ƒ, R(qi,dj) ] D - visão lógica dos documentos Q - visão lógica da query do usuário ƒ - um framework para modelar essas representações e seus relacionamentos R(qi,dj) - uma função que associa um número real com uma query qi Q e um documento dj D Obs.: Para simplificação, considere Q = D, e R(qi,dj) = Sim 10
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Modelos • Modelos Clássicos de IR: • Booleanodocumentos são representados como um conjunto de termos que aparecem no documento • Vector Space como um vetor em um espaço t-dimensional • Probabilista baseado na teoria da probabilidade • Derivações: • Booleano Fuzzy, Booleano Estendido • Vector Space Vetor Generalizado, Indexação com Semântica Latente, Redes Neurais • Probabilista Rede de Inferência, Rede de Crença • Alternativo: • Baseado em Links algoritmos Companion e Cocitation [1] [1] HENZINGER, M. R. & DEAN, J. Finding Related Pages in World Wide Web 11
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Booleano Modelos • D: conjunto de termos do documento, com pesos binários • f: teoria dos conjuntos e álgebra booleana • Sim: apenas retorna 1 (se o termo esta presente no doc.) ou 0 • Ex.: sejam os k termos • Vantagem: • Oferece um framework simples e elegante • Desvantagem: • Determinístico: um documento é ou não relevante • Problemas com Precisão e Cobertura: Resultados (muito) grandes ou pequenos e sem uma escala de relevância k1 k2 k1 k2 k3 Documentos relevantes k3 12
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Sidney Brasil 0.3 Olimpíadas 0.5 Sidney 0.2 dj di 0.2 dj Brasil 0.2 Olimpíadas 0.4 Sidney 0.4 di 0.5 0.3 Olimpíadas di = 0.3 Brasil + 0.5 Olimpiadas + 0.2 Sidney dj = 0.2 Brasil + 0.4 Olimpiadas + 0.4 Sidney Brasil Recuperação de Informação Vector Space Modelos • D: um vetor • f : espaço vetorial t-dimensional e operações de álgebra linear sobre vetores • As dimensões do espaço vetorial são os termos do documento • Os termos recebem pesos de relevância no documento (negrito, título, etc) • Esses pesos são usados como índices do vetor • Modelo mais utilizado em IR 13
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista di•dj |di| · |dj| Recuperação de Informação Vector Space Modelos • Sim: produto interno / produto das normas Sim = = = 0.28 • Vantagem: • Oferece um framework simples e elegante • Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança • Em geral, seu desempenho (precisão e cobertura) supera todos os outros modelos 0.3 · 0.2 + 0.5 · 0.4 + 0.2 · 0.4 ( 0.09 + 0.25 + 0.04 )½ · ( 0.04 + 0.16 + 0.16 )½ 14
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Probabilista Modelos • Baseado no principio probabilístico “Dada uma query q e um documento dj em uma coleção, este modelo tenta estimar a probabilidade de que o usuário ache o documento dj interessante (i.e., relevante) • Idéia fundamental • Dada uma query, existe um conjunto de documentos relevantes e outro não • Esse conjunto de documentos relevantes tem certas propriedades • Definimos probabilidades associadas a essas propriedades • O usuário interage para definir que documentos foram ou não relevantes • As probabilidades são então melhoradas • Vantagens e Desvantagens: • Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança • Necessidade de separar os documentos relevantes a priori 15
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista idfx maxi idfi wx,j = fx,j · Recuperação de Informação Booleano Estendido Modelos • Combinação do modelo booleano com o vector space • D: um ponto no espaço • f : espaço t-dimensional e distância entre pontos • Sim : distância de dj D para o ponto 1 (no caso de AND) • Estende o modelo booleano com pesos entre [0,1] 16
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista (1-x1)p + (1-x2)p + ... + (1-xm)p m (1-x1)p + (x2)p + ... + (1-xm)p m (x1)p + (x2)p + ... + (xm)p m and = 1 - Sim = 1 - or = 1/p 1/p 1/p Recuperação de Informação Booleano Estendido Modelos • Relaxa álgebra booleana e interpreta operações booleanas em termos de distâncias algébricas (tome wx,j como x) Distância para o ponto (1,1,...,1) Distância para o ponto (0,0,...,0) 17
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista termo query doc1 doc2 M M : matriz termo-documento, com pesos nas linhas e documentos nas colunas Recuperação de Informação Latent Semantic Indexing Modelos • Busca documentos relevantes através do conceito, e não mais apenas por termos: • D: uma coluna da matriz termo-documento ( abaixo) • f : operações com matrizes (ex. transposta t) • Sim: obtido com algumas transformações Doc1Doc2Doc3 ... Doc N Termo1 w11 w12 w13 ... w1n Termo2 w21 w22 w23 ... w2n ... ... ... ... ... w Termo t wt1 wt2 wt3 ... wtn 18
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista • = , onde = e = Mts Dts Ms Ms Mt Mt Ks Ds Ds M M Dt Dt M M Ss Ss Ss K K S SimDoc1 Doc1 w11 Doc2 w21 ... ... DocN wN1 Recuperação de Informação Latent Semantic Indexing Modelos • Decompondo a matriz em três componentes : • Reduzindo o espaço para dimensionalidade s : • O relacionamento entre os documentos é obtido com : • = • = ( ) ( )t Matriz que nos fornece o fator de similaridade entre Doc1 e todos os outros documentos 19
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista wi,q ( w2i,q )½ k1 d1 wi,j ( w2i,j )½ ka ka dj kb kb wi,q wi,j ( w2i,q )½ ( w2i,j ) ½ Dj+1 kc wi,q wi,j = kc t t t t t t t t i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 kt dN Recuperação de Informação Rede Neural Modelos • D: um nó na rede • f : rede neural com três camadas Termos de D Propagação 1 Propagação 2 D Termos de uma query • Sim: Igual ao vector space na primeira passagem 20
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista di dj b b b fb bf bf d bf fb f f Recuperação de Informação Baseado em Links Modelos • D: como um nó • f : estrutura de links, e operações como pai(d) e filho(d) • Princípio Básico: • Gráfico da Vizinhança: - a partir de um documento d- “Se existe um link de di para dj, então o autor recomenda dj e o link oferece um documento relacionado” - Gráfico de links gerado a partir do nó d, com a ferramenta Connectivity Server - 21
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista 1/k 1/j 1/j 1/k A B C Recuperação de Informação Baseado em Links Modelos • Algoritmo Companion • Construção do Gráfico de Vizinhança • Eliminação de Duplicatas 95% de links em comum e mais de 10 links • Atribuição de pesos aos links: • Calculo do Authority e Hub: • Sim = nós com maiores Authority Dados os hosts: - A com 2 nós (k=2) - B com 1 nó (j=2) - C com 2 nós A[n] = H[n] H[n] = A[n] 22
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista A B C D E u F G H 1 3 2 1 Recuperação de Informação Baseado em Links Modelos • Algoritmo Cocitation • Dois nós são co-citados se tem o mesmo pai • Grau de Co-Citaçãonumero de pais em comum • Sim = nós com maiores graus de co-citação (F, G, E, H) 23
k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Modelos • Conclusões • Grande diversidade de modelos • Modelos híbridos (booleano probabilista, booleano estendido) • Vector Space: mais utilizado e divulgado na literatura • Em termos de precisão e cobertura, • Alguns modelos se mostraram mais eficientes que o Vector Space em domínios especializados • Bases grandes e heterogêneas: não se tem registro de nenhum modelo que supere o Vector Space 24
Agentes em RI Lista de Croft versus Características de Agentes - Bruce Croft apresentou na revista D-Lib Magazine em Nov. de 95 [1] a lista dos 10 maiores desafios em RI - Adaptação Cooperação Autonomia 10. 9. 8. 7. 6. 5. 4. 3. 2. 1. Relevância do Feedback Extração de Informação Recuperação Multimídia Recuperação Efetiva Filtering e Routing Interface e Navegação Expansão de termos Eficiência e Flexibilidade RI Distribuída Soluções Integradas [1] http://www.dlib.org/dlib/november95/11croft.html 25
Agentes em RI • Agentes Baseados em Recuperação de Informação (ABRI) EachMovie Firefly GroupLens Morse MovieCritic Phoaks RARE/Tunes ReferralWeb SiteSeer Yenta Syskill and Webert Interface Adaptativa Compreensão de Conteúdo Colaborativo Pró-Ativo Backweb Marimba Pointcast SIFT TopicAGENTs Fishwrap MyYahoo Push RemembranceAgent Adaptação para Usuários e Conteúdo ABRI Especialista em Conteúdo Bases (grandes) Distribuídas CARROT InfoSleuth Retsina SAIRE UMDL KnowBot URLAgents All-in-one Fastfind Metacrawler Metasearch Profusion Savvysearch WebCompass NetBot Jango ShopBot ShopBot MetaBusca Interface Simples para Múltiplas Fontes 26
Agentes em RI KnowBots • Provê uma linguagem de consulta para acessar várias fontes • ShopBot e-commerce • MetaBusca engenhos de busca • Ex: Metacrawler : MetaBusca • Única interface • Consulta vários engenhos de busca • Combina os resultados NetBot Jango : ShopBot • Única interface • Consulta vários sites a procura de determinados produtos: CDs, charutos • Mostra uma lista de produto + preço + site 27
}-{ }-{ }-{ }-{ }-{ }-{ BI BI BI BI Agentes em RI Bases (Grandes) Distribuídas • Corpus dinâmico, medido em MB (ou GB) • Documentos heterogêneos: tamanhos, formatos, linguagens • Arquitetura: Agentes feedback, consultas consultas documentos documentos feedback, consultas consultas documentos documentos Múltiplos Usuários Múltiplas Fontes de Informação 28
Agentes em RI Bases (Grandes) Distribuídas • Sobre a arquitetura: • Cada usuário é representado (pelo menos) por um agente, que tem (ou obtém) o perfil ou necessidade do usuário. Problema do Profile do Usuário • As consultas podem ser modificadas (ex. expandida) e enviadas para as bases. Problema do Processamento de Consultas • As bases podem ter diferentes modelos de documentos e consultas. Problema da Heterogeneidade • Documentos de diferentes bases precisam ser comparados e ranqueados. Problema da Fusão de Dados 29
Agentes em RI Bases (Grandes) Distribuídas Ex: • SAIRE • Scalable Agent-based Information Retrieval Engine • Provê acesso aos dados da NASA EOSDIS • Suporte para leigos e experts • Três variedades de agentes: Interface, Coordenador e Especialista em Domínios • Comunicação entre agentes • http://saire.ivv.nasa.gov/saire.html • UMDL • University of Michigan Digital Library • Três tipos de agentes: • Interface - consultas e profile • Mediador - planejamento • Buscador - engenhos de busca • O usuário pode navegar através de um applet java, sob uma ontologia de informação desenvolvida por eles http://www.si.umich.edu/UMDL/ 30
Agentes em RI Filtragem Colaborativa • Um sistema de filtragem colaborativo faz recomendações a um usuário de acordo com o grupo de usuários similares a ele • Recomenda: • Pessoas - Yenta, ReferralWeb • Produtos - Firefly, Similarities Engine, Tunes (music), EachMovie, Morse, RARE, MovieCritic (movies & videos) • Leituras - Wisewire, Firefly, Fab, Phoaks Baseado em Conteúdo vs. Recomendação Colaborativa Recomendação Colaborativa similar a Recomendação Baseada em Conteúdo gosta gosta similar a Documento Documento recomendado 31
Agentes em RI Filtragem Colaborativa Ex: • FAB • recomenda sites usando técnicas de RI adaptativa • Agente: coletor, selecionador e enviador • Feedback do usuário: adaptar profile e dar(tirar) crédito aos agentes • Um algoritmo genético é usado para desenvolver a população de agentes coletores • Http://fab.stanford.edu • Firefly • Aplicado a música, filmes, sites, livros, etc • Usa vários conjuntos de vizinhos para aumentar a precisão • Recomenda usuários que não gostam de um site, ou um site que um dado usuário não gosta • Comprada pela Microsoft, Abril 98 32
Agentes em RI Interface Adaptativa Ex: • SysKill & Webert • controla o browser adicionando painéis • Facilita ao usuário avaliar um site como bom ou ruim a respeito de uma das várias classes definidas pelos usuários • Pode estimar quais sites o usuário poderia gostar 33
Agentes em RI Pró-Ativo Ex: • Remembrance Agent • Indexa arquivos pessoais e e-mails • Sugere arquivos relevantes à tarefa que o usuário está executando • Opera continuamente • Letizia • Agente que navega semelhante ao usuário • Usuários geralmente navegam em profundidade, enquanto Letizia navega em largura • Usa uma variedade de heurísticas para identificar sites interessantes • Quando um site interessante é encontrado, é mostrado em uma janela diferente 34
Agentes em RI Pró-Ativo PUSH Ex: • TopicAGENTs • Provê uma visão do agente das tarefas de recuperação de informação para o usuário • Tarefas: filtragem, categorização, routing • Variedade de serviços de envio: • Sites • Entrada no banco de dados • E-mail • Fax 35
Agentes em RI Conclusões • Vantagens de Agentes baseados em Recuperação de Informação: • Manipulam dinamicamente bases heterogêneas e distribuídas • Melhoram a performance via agentes especializados • Podem adaptar-se aos interesses e preferências dos usuários • Tecnologias já disponíveis: • Linguagens e protocolos de comunicação entre agentes. Ex: KQML • Métodos e algoritmos de Machine Learning • etc. • Futuro: • Melhorar o processamento e representação de metadados • Habilidade para manipular mídias: imagens, sons, vídeos, etc • Fusão inteligente de bases heterogêneas 36
Active Search Agent • Em desenvolvimento no CIn-UFPE • Ajuda o usuário a encontrar documentos semelhantes ao que ele está consultando/editando no momento • Plataformas: IE, Netscape e Microsof Word • Compara o conteúdo de dois documentos • Representa um aumento na precisão dos documentos recuperados • Extremamente útil na Intranet de uma empresa: • Padronização dos documentos • Business da empresa • Facilidade para o funcionário encontrar documentos similares ao que está editando. • Economiza tempo dele mesmo e de outros 37
}-{ Google Radix Active Search Agent Arquitetura Active Search Doc Ps Html . . . Internet Explorer Algoritmo de Similaridade Lista URLs similares Interface Algoritmo de Busca Netscape Centróides Buscados -------- --- Centróide Doc.Atual -------- --- query Documento Atual Ontologia Preparação do Documento Servidor de Consulta MS Word StopList Intranet Web Internet 38
Active Search Agent Protótipo 39
Active Search Agent Próximos Passos... • Estudar e implementar mais modelos de representação de documentos (medidas de similaridade) • Realizar medições da qualidade das respostas para os diferentes modelos • Precisão, cobertura, f-measure, etc • Estudar e implementar técnicas de filtragem e clustering 40
Referências Bibliográficas • Recuperação de Informação • BAEZA-YATES, Ricado, RIBEIRO-NETO, Berthier. Modern Information Retrieval • JONES, Karen S., WILLET, Peter. Readings in Information Retrieval • http://www.cs.kun.nl/is/edu/ir1/dir.htm • http://www.ils.unc.edu/viles/inls172-s99/172-Syll-S99.html • http://www.pitt.edu/~korfhage/glossary.html • Agentes baseados em Recuperação de Informação • http://www.cs.umbc.edu/abir/ 41