1 / 41

Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE

Introdução a. Recuperação de Informação. Agentes baseados em. Recuperação de Informação. Active Search Agent. Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE. Novembro 2000. docs. Arquivos Invertidos. termo1 - doc1, doc3,... termo2 - doc41, ...

gema
Download Presentation

Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introdução a Recuperação de Informação Agentes baseados em Recuperação de Informação Active Search Agent Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

  2. docs. Arquivos Invertidos termo1 - doc1, doc3,... termo2 - doc41, ... ... - ... BI BI docs. relevantes Necessidade do Usuário (palavras-chave, profile, etc) Informação Armazenada + = BI BI Recuperação de Informação • Sistemas tradicionais de Recuperação de Informação (RI) usam termos para indexação e recuperação dos dados (há 20 anos !!!) • Termos são palavras ou conjuntos de palavras de um documento • Indexação armazenamento da informação nas bases de índice • Recuperação 2

  3. Stemming e n-grams redução de termos. Ex: CONNECT CONNECTED CONNECTING CONNECTION CONNECTIONS • TF(w): freqüência da palavra w no doc. • DF(w): freqüência de w em D • D = total de documentos Recuperação de Informação • Stop List lista de palavras comuns, irrelevantes • Term Frequency-Inverse Document Frequency (TFIDF): • atribuição de peso aos termos Artigos: a, os, ... Pronomes: meu, aquele, ... Advérbios: muito, bem, ... ... 3

  4. Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados Recuperação de Informação • Precisão • Documentos relevantes retornados dividido pelo número total de retornados • Cobertura • Total de documentos relevantes retornados dividido pelo número total dos relevantes by Flávia (fab@cin.ufpe.br) 4

  5. Recuperação de Informação Outros Conceitos: • Robô (ou spider) programas que percorrem links na web, geralmente com objetivo de indexá-la • Corpus conjunto de documentos etiquetados • Filtragem à partir do profile(gosto) do usuário, documentos interessantes são selecionados • Routing faz a mesma coisa que filtragem, a medida que os documentos vão sendo adicionados ao Corpus • Arquivo invertido termos (índices) mapeando os documentos em que aparecem 5

  6. Recuperação de Informação • Base de Índice banco de dados de um sistema de índices • Similaridade o grau de quanto 2 documentos são semelhantes • Co-Citação (co-citation) dois documentos são citados por um mesmo documento • Thesaurus identifica o relacionamento entre termos • Trec (Text Retrieval Conference) conferência de IR para demonstração de experimentos com grandes banco de dados, banco de dados multimídia, etc 6

  7. Usuário Resultado Consulta w e b Documentos + URLs Casamento de Termos BI BI Índices + URLs Robôs Recuperação de Informação Engenhos de Busca • Ex: Radix, Altavista Busca palavras-chave Interface recuperação indexação Stop List 7

  8. Recuperação de Informação • Representação Física de Documentos Textuais Digitais • Texto completo • Difícil de manipular • Centróide - conjunto de termos com pesos associados ou não • Perda de semântica Centróide honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates 8

  9. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista doc1 doc2 Recuperação de Informação Modelos • Motivação: que documentos são relevantes a uma consulta do usuário ? Ou qual o grau de semelhança entre dois documentos ? • Surgiu a necessidade de criar modelos para interpretar e manipular documentos • Representação Lógica (Modelos) de Documentos Textuais Digitais • Framework para manipular e interpretar documentos • Várias abordagens: teoria dos conjuntos, álgebra linear, probabilidade, etc • Ex: Vector Space Mostraremos alguns deles !! 9

  10. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Modelos • Definição Formal de modelo em IR: • É definido pela quádrupla [ D, Q, ƒ, R(qi,dj) ] D - visão lógica dos documentos Q - visão lógica da query do usuário ƒ - um framework para modelar essas representações e seus relacionamentos R(qi,dj) - uma função que associa um número real com uma query qi Q e um documento dj D Obs.: Para simplificação, considere Q = D, e R(qi,dj) = Sim 10

  11. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Modelos • Modelos Clássicos de IR: • Booleanodocumentos são representados como um conjunto de termos que aparecem no documento • Vector Space como um vetor em um espaço t-dimensional • Probabilista baseado na teoria da probabilidade • Derivações: • Booleano Fuzzy, Booleano Estendido • Vector Space Vetor Generalizado, Indexação com Semântica Latente, Redes Neurais • Probabilista Rede de Inferência, Rede de Crença • Alternativo: • Baseado em Links algoritmos Companion e Cocitation [1] [1] HENZINGER, M. R. & DEAN, J. Finding Related Pages in World Wide Web 11

  12. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Booleano Modelos • D: conjunto de termos do documento, com pesos binários • f: teoria dos conjuntos e álgebra booleana • Sim: apenas retorna 1 (se o termo esta presente no doc.) ou 0 • Ex.: sejam os k termos • Vantagem: • Oferece um framework simples e elegante • Desvantagem: • Determinístico: um documento é ou não relevante • Problemas com Precisão e Cobertura: Resultados (muito) grandes ou pequenos e sem uma escala de relevância k1 k2 k1  k2  k3 Documentos relevantes k3 12

  13. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Sidney Brasil 0.3 Olimpíadas 0.5 Sidney 0.2 dj di 0.2 dj Brasil 0.2 Olimpíadas 0.4 Sidney 0.4 di 0.5 0.3 Olimpíadas di = 0.3 Brasil + 0.5 Olimpiadas + 0.2 Sidney dj = 0.2 Brasil + 0.4 Olimpiadas + 0.4 Sidney Brasil Recuperação de Informação Vector Space Modelos • D: um vetor • f : espaço vetorial t-dimensional e operações de álgebra linear sobre vetores • As dimensões do espaço vetorial são os termos do documento • Os termos recebem pesos de relevância no documento (negrito, título, etc) • Esses pesos são usados como índices do vetor • Modelo mais utilizado em IR 13

  14. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista di•dj |di| · |dj| Recuperação de Informação Vector Space Modelos • Sim: produto interno / produto das normas Sim = = = 0.28 • Vantagem: • Oferece um framework simples e elegante • Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança • Em geral, seu desempenho (precisão e cobertura) supera todos os outros modelos 0.3 · 0.2 + 0.5 · 0.4 + 0.2 · 0.4 ( 0.09 + 0.25 + 0.04 )½ · ( 0.04 + 0.16 + 0.16 )½ 14

  15. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Probabilista Modelos • Baseado no principio probabilístico “Dada uma query q e um documento dj em uma coleção, este modelo tenta estimar a probabilidade de que o usuário ache o documento dj interessante (i.e., relevante) • Idéia fundamental • Dada uma query, existe um conjunto de documentos relevantes e outro não • Esse conjunto de documentos relevantes tem certas propriedades • Definimos probabilidades associadas a essas propriedades • O usuário interage para definir que documentos foram ou não relevantes • As probabilidades são então melhoradas • Vantagens e Desvantagens: • Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança • Necessidade de separar os documentos relevantes a priori 15

  16. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista idfx maxi idfi wx,j = fx,j · Recuperação de Informação Booleano Estendido Modelos • Combinação do modelo booleano com o vector space • D: um ponto no espaço • f : espaço t-dimensional e distância entre pontos • Sim : distância de dj D para o ponto 1 (no caso de AND) • Estende o modelo booleano com pesos entre [0,1] 16

  17. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista (1-x1)p + (1-x2)p + ... + (1-xm)p m (1-x1)p + (x2)p + ... + (1-xm)p m (x1)p + (x2)p + ... + (xm)p m and = 1 - Sim = 1 - or = 1/p 1/p 1/p Recuperação de Informação Booleano Estendido Modelos • Relaxa álgebra booleana e interpreta operações booleanas em termos de distâncias algébricas (tome wx,j como x) Distância para o ponto (1,1,...,1) Distância para o ponto (0,0,...,0) 17

  18. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista termo query doc1 doc2 M M : matriz termo-documento, com pesos nas linhas e documentos nas colunas Recuperação de Informação Latent Semantic Indexing Modelos • Busca documentos relevantes através do conceito, e não mais apenas por termos: • D: uma coluna da matriz termo-documento ( abaixo) • f : operações com matrizes (ex. transposta t) • Sim: obtido com algumas transformações Doc1Doc2Doc3 ... Doc N Termo1 w11 w12 w13 ... w1n Termo2 w21 w22 w23 ... w2n ... ... ... ... ... w Termo t wt1 wt2 wt3 ... wtn 18

  19. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista • = , onde = e = Mts Dts Ms Ms Mt Mt Ks Ds Ds M M Dt Dt M M Ss Ss Ss K K S SimDoc1 Doc1 w11 Doc2 w21 ... ... DocN wN1 Recuperação de Informação Latent Semantic Indexing Modelos • Decompondo a matriz em três componentes : • Reduzindo o espaço para dimensionalidade s : • O relacionamento entre os documentos é obtido com : • = • = ( ) ( )t Matriz que nos fornece o fator de similaridade entre Doc1 e todos os outros documentos 19

  20. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista wi,q ( w2i,q )½ k1 d1 wi,j ( w2i,j )½ ka ka dj kb kb wi,q wi,j ( w2i,q )½ ( w2i,j ) ½ Dj+1 kc wi,q wi,j = kc t t t t t t t t         i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 kt dN Recuperação de Informação Rede Neural Modelos • D: um nó na rede • f : rede neural com três camadas Termos de D Propagação 1 Propagação 2 D Termos de uma query • Sim: Igual ao vector space na primeira passagem 20

  21. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista di dj b b b fb bf bf d bf fb f f Recuperação de Informação Baseado em Links Modelos • D: como um nó • f : estrutura de links, e operações como pai(d) e filho(d) • Princípio Básico: • Gráfico da Vizinhança: - a partir de um documento d- “Se existe um link de di para dj, então o autor recomenda dj e o link oferece um documento relacionado” - Gráfico de links gerado a partir do nó d, com a ferramenta Connectivity Server - 21

  22. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista 1/k 1/j 1/j 1/k A B C Recuperação de Informação Baseado em Links Modelos • Algoritmo Companion • Construção do Gráfico de Vizinhança • Eliminação de Duplicatas 95% de links em comum e mais de 10 links • Atribuição de pesos aos links: • Calculo do Authority e Hub: • Sim = nós com maiores Authority Dados os hosts: - A com 2 nós (k=2) - B com 1 nó (j=2) - C com 2 nós A[n] =  H[n] H[n] =  A[n] 22

  23. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista A B C D E u F G H 1 3 2 1 Recuperação de Informação Baseado em Links Modelos • Algoritmo Cocitation • Dois nós são co-citados se tem o mesmo pai • Grau de Co-Citaçãonumero de pais em comum • Sim = nós com maiores graus de co-citação (F, G, E, H) 23

  24. k v t a O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... g A estrutura montada em Sidney para receber os 15,5 mil atletas... f n booleano vetor probabilista Recuperação de Informação Modelos • Conclusões • Grande diversidade de modelos • Modelos híbridos (booleano probabilista, booleano estendido) • Vector Space: mais utilizado e divulgado na literatura • Em termos de precisão e cobertura, • Alguns modelos se mostraram mais eficientes que o Vector Space em domínios especializados • Bases grandes e heterogêneas: não se tem registro de nenhum modelo que supere o Vector Space 24

  25. Agentes em RI Lista de Croft versus Características de Agentes - Bruce Croft apresentou na revista D-Lib Magazine em Nov. de 95 [1] a lista dos 10 maiores desafios em RI - Adaptação Cooperação Autonomia          10. 9. 8. 7. 6. 5. 4. 3. 2. 1. Relevância do Feedback Extração de Informação Recuperação Multimídia Recuperação Efetiva Filtering e Routing Interface e Navegação Expansão de termos Eficiência e Flexibilidade RI Distribuída Soluções Integradas [1] http://www.dlib.org/dlib/november95/11croft.html 25

  26. Agentes em RI • Agentes Baseados em Recuperação de Informação (ABRI) EachMovie Firefly GroupLens Morse MovieCritic Phoaks RARE/Tunes ReferralWeb SiteSeer Yenta Syskill and Webert Interface Adaptativa Compreensão de Conteúdo Colaborativo Pró-Ativo Backweb Marimba Pointcast SIFT TopicAGENTs Fishwrap MyYahoo Push RemembranceAgent Adaptação para Usuários e Conteúdo ABRI Especialista em Conteúdo Bases (grandes) Distribuídas CARROT InfoSleuth Retsina SAIRE UMDL KnowBot URLAgents All-in-one Fastfind Metacrawler Metasearch Profusion Savvysearch WebCompass NetBot Jango ShopBot ShopBot MetaBusca Interface Simples para Múltiplas Fontes 26

  27. Agentes em RI KnowBots • Provê uma linguagem de consulta para acessar várias fontes • ShopBot  e-commerce • MetaBusca  engenhos de busca • Ex: Metacrawler : MetaBusca • Única interface • Consulta vários engenhos de busca • Combina os resultados NetBot Jango : ShopBot • Única interface • Consulta vários sites a procura de determinados produtos: CDs, charutos • Mostra uma lista de produto + preço + site 27

  28. }-{ }-{ }-{ }-{ }-{ }-{ BI BI BI BI Agentes em RI Bases (Grandes) Distribuídas • Corpus dinâmico, medido em MB (ou GB) • Documentos heterogêneos: tamanhos, formatos, linguagens • Arquitetura: Agentes feedback, consultas consultas documentos documentos feedback, consultas consultas documentos documentos Múltiplos Usuários Múltiplas Fontes de Informação 28

  29. Agentes em RI Bases (Grandes) Distribuídas • Sobre a arquitetura: • Cada usuário é representado (pelo menos) por um agente, que tem (ou obtém) o perfil ou necessidade do usuário. Problema do Profile do Usuário • As consultas podem ser modificadas (ex. expandida) e enviadas para as bases. Problema do Processamento de Consultas • As bases podem ter diferentes modelos de documentos e consultas. Problema da Heterogeneidade • Documentos de diferentes bases precisam ser comparados e ranqueados. Problema da Fusão de Dados 29

  30. Agentes em RI Bases (Grandes) Distribuídas Ex: • SAIRE • Scalable Agent-based Information Retrieval Engine • Provê acesso aos dados da NASA EOSDIS • Suporte para leigos e experts • Três variedades de agentes: Interface, Coordenador e Especialista em Domínios • Comunicação entre agentes • http://saire.ivv.nasa.gov/saire.html • UMDL • University of Michigan Digital Library • Três tipos de agentes: • Interface - consultas e profile • Mediador - planejamento • Buscador - engenhos de busca • O usuário pode navegar através de um applet java, sob uma ontologia de informação desenvolvida por eles http://www.si.umich.edu/UMDL/ 30

  31. Agentes em RI Filtragem Colaborativa • Um sistema de filtragem colaborativo faz recomendações a um usuário de acordo com o grupo de usuários similares a ele • Recomenda: • Pessoas - Yenta, ReferralWeb • Produtos - Firefly, Similarities Engine, Tunes (music), EachMovie, Morse, RARE, MovieCritic (movies & videos) • Leituras - Wisewire, Firefly, Fab, Phoaks Baseado em Conteúdo vs. Recomendação Colaborativa Recomendação Colaborativa similar a Recomendação Baseada em Conteúdo gosta gosta similar a Documento Documento recomendado 31

  32. Agentes em RI Filtragem Colaborativa Ex: • FAB • recomenda sites usando técnicas de RI adaptativa • Agente: coletor, selecionador e enviador • Feedback do usuário: adaptar profile e dar(tirar) crédito aos agentes • Um algoritmo genético é usado para desenvolver a população de agentes coletores • Http://fab.stanford.edu • Firefly • Aplicado a música, filmes, sites, livros, etc • Usa vários conjuntos de vizinhos para aumentar a precisão • Recomenda usuários que não gostam de um site, ou um site que um dado usuário não gosta • Comprada pela Microsoft, Abril 98 32

  33. Agentes em RI Interface Adaptativa Ex: • SysKill & Webert • controla o browser adicionando painéis • Facilita ao usuário avaliar um site como bom ou ruim a respeito de uma das várias classes definidas pelos usuários • Pode estimar quais sites o usuário poderia gostar 33

  34. Agentes em RI Pró-Ativo Ex: • Remembrance Agent • Indexa arquivos pessoais e e-mails • Sugere arquivos relevantes à tarefa que o usuário está executando • Opera continuamente • Letizia • Agente que navega semelhante ao usuário • Usuários geralmente navegam em profundidade, enquanto Letizia navega em largura • Usa uma variedade de heurísticas para identificar sites interessantes • Quando um site interessante é encontrado, é mostrado em uma janela diferente 34

  35. Agentes em RI Pró-Ativo PUSH Ex: • TopicAGENTs • Provê uma visão do agente das tarefas de recuperação de informação para o usuário • Tarefas: filtragem, categorização, routing • Variedade de serviços de envio: • Sites • Entrada no banco de dados • E-mail • Fax 35

  36. Agentes em RI Conclusões • Vantagens de Agentes baseados em Recuperação de Informação: • Manipulam dinamicamente bases heterogêneas e distribuídas • Melhoram a performance via agentes especializados • Podem adaptar-se aos interesses e preferências dos usuários • Tecnologias já disponíveis: • Linguagens e protocolos de comunicação entre agentes. Ex: KQML • Métodos e algoritmos de Machine Learning • etc. • Futuro: • Melhorar o processamento e representação de metadados • Habilidade para manipular mídias: imagens, sons, vídeos, etc • Fusão inteligente de bases heterogêneas 36

  37. Active Search Agent • Em desenvolvimento no CIn-UFPE • Ajuda o usuário a encontrar documentos semelhantes ao que ele está consultando/editando no momento • Plataformas: IE, Netscape e Microsof Word • Compara o conteúdo de dois documentos • Representa um aumento na precisão dos documentos recuperados • Extremamente útil na Intranet de uma empresa: • Padronização dos documentos • Business da empresa • Facilidade para o funcionário encontrar documentos similares ao que está editando. • Economiza tempo dele mesmo e de outros 37

  38. }-{ Google Radix Active Search Agent Arquitetura Active Search Doc Ps Html . . . Internet Explorer Algoritmo de Similaridade Lista URLs similares Interface Algoritmo de Busca Netscape Centróides Buscados -------- --- Centróide Doc.Atual -------- --- query Documento Atual Ontologia Preparação do Documento Servidor de Consulta MS Word StopList Intranet Web Internet 38

  39. Active Search Agent Protótipo 39

  40. Active Search Agent Próximos Passos... • Estudar e implementar mais modelos de representação de documentos (medidas de similaridade) • Realizar medições da qualidade das respostas para os diferentes modelos • Precisão, cobertura, f-measure, etc • Estudar e implementar técnicas de filtragem e clustering 40

  41. Referências Bibliográficas • Recuperação de Informação • BAEZA-YATES, Ricado, RIBEIRO-NETO, Berthier. Modern Information Retrieval • JONES, Karen S., WILLET, Peter. Readings in Information Retrieval • http://www.cs.kun.nl/is/edu/ir1/dir.htm • http://www.ils.unc.edu/viles/inls172-s99/172-Syll-S99.html • http://www.pitt.edu/~korfhage/glossary.html • Agentes baseados em Recuperação de Informação • http://www.cs.umbc.edu/abir/ 41

More Related