1 / 53

Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005

Teoria e tecniche della catalogazione e classificazione Sistemi di recupero dell’informazione ricerca4sistemi. Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005. Abbiamo visto:. Informazione Dati/Informazione/Conoscenza/Sapere Teoria dell’informazione ( C. Shannon)

Download Presentation

Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Teoria e tecniche della catalogazione e classificazioneSistemi di recupero dell’informazionericerca4sistemi Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005

  2. Abbiamo visto: • Informazione • Dati/Informazione/Conoscenza/Sapere • Teoria dell’informazione (C. Shannon) • Ciclo di trasferimento dell’informazione T&T 2004/05

  3. Gerarchia dell’informazione Wisdom Knowledge Information Data T&T 2004/05

  4. Message Message Source Encoding Decoding Destination Channel Message Message Source Encoding (writing/indexing) Storage Decoding (Retrieval/Reading) Destination Teoria dell’informazione • Meglio indicata come “Teoria della comunicazione” • La comunicazione oltrepassa tempo e spazio Noise T&T 2004/05

  5. Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Ciclo di trasferimento dell’informazione T&T 2004/05

  6. Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Temi principali del corso T&T 2004/05

  7. Oggi • Sistemi di recupero dell’informazione T&T 2004/05

  8. Information Retrieval (IR) • L’espressione “information retrieval” è coniata da C. Mooers nel 1952 • Obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti rilevanti per un particolare utente con una particolare richiesta informativa • The goal is to search large document collections (millions of documents) to retrieve small subsets relevant to the user’s information need • Rilevanza è un concetto chiave dell’IR, su cui torneremo T&T 2004/05

  9. Sistemi IR: prime rappresentazioni fisiche • Pinakes – Biblioteca di Alessandria • Indici e concordanze della Bibbia (Ugo di San Caro, 1247) • Indici dei giornali T&T 2004/05

  10. Sistemi IR: rappresentazioni mentali • Mnemotecnica, palazzi della memoria (Simonide di Ceo) T&T 2004/05

  11. Sistemi IR: rappresentazioni bibliografiche • Cataloghi di biblioteca • Bibliografie T&T 2004/05

  12. Visioni di sistemi IR • Paul Otlet (’30) • Emanuel Goldberg (‘20 – ’40) • H.G. Wells, World Brain: the idea of a permanent World Encyclopedia, 1937 (Introduzione al XVIII vol. dell’Encyclopedie Francaise) • Vannevar Bush, As we may think, “Atlantic Monthly”, 1945 - Memex T&T 2004/05

  13. Sistemi IR: storia più recente • Radici nella “Information Explosion” che segue la II GM • L’espressione “Information Retrieval” è coniata da C. Mooers nel 1952 • A partire dagli anni ‘50, interesse verso sistemi IR “computer-based” • H.P. Luhn presso IBM (1958) • Modello probabilistico (Maron & Kuhns 1960) • Sviluppo del sistema booleano presso Lockheed (‘60) • Modello vettoriale (Salton presso Cornell U. 1965) • Metodi di “statistical weighting” (‘70 – ‘80) • Interfacce utenti, applicazioni su larga scala (‘90) T&T 2004/05

  14. Historical Milestones in IR Research 1958 Statistic Language Properties (Luhn) 1960 Probabilistic Indexing (Maron & Kuhns) 1961 Term association and clustering (Doyle) 1965 Vector Space Model (Salton) 1968 Query expansion (Roccio, Salton) 1972 Statistical Weighting (Sparck-Jones) 1975 2-Poisson Model (Harter, Bookstein, Swanson) 1976 Relevance Weighting (Robertson, Sparck-Jones) 1980 Fuzzy sets (Bookstein) 1981 Probability without training (Croft) UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey Fredric C. Gey 2 T&T 2004/05

  15. Historical Milestones in IR Research (continued) 1983 Linear Regression (Fox) 1983 Probabilistic Dependence (Salton, Yu) 1985 Generalized Vector Space Model (Wong, Rhagavan) 1987 Fuzzy logic and RUBRIC/TOPIC (Tong, et al) 1990 Latent Semantic Indexing (Dumais, Deerwester) 1991 Polynomial & Logistic Regression (Cooper, Gey, Fuhr) 1992 TREC (Harman) 1992 Inference networks (Turtle, Croft) 1994 Neural networks (Kwok) UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 3 T&T 2004/05

  16. Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05

  17. Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05

  18. Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05

  19. Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05

  20. Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05

  21. User’s Information Need Componenti di un sistema IR Documents Index Records and Document Surrogates Indexing Process Authoritative Indexing Rules severe information loss Query Specification Process Retrieval Rules Retrieval Process Query List of Documents Relevant to User’s Information Need UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 04/07/98 9 T&T 2004/05

  22. Sistemi IR: struttura (Cooper - Maron, 1985) • l’insieme delle possibili chiavi di accesso assegnate ai documenti; • l’insieme delle domande formulabili dagli utenti; • l’insieme degli indicatori di valore informativo da assegnare ai documenti; • una regola di recupero. T&T 2004/05

  23. Sistemi IR - Modello A: registro / inventario / topografico • chiavi di accesso: UN SOLO DESCRITTORE PER OGNI DOCUMENTO • domande: UN SOLO DESCRITTORE IN OGNI DOMANDA • indicatori di valore informativo: 0 (IL DOC. NON HA VALORE INFORMATIVO) / 1 (IL DOC. HA VALORE INFORMATIVO) • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E’ UGUALE A QUELLO ASSEGNATO COME CHIAVE D’ACCESSO T&T 2004/05

  24. Sistemi IR - Modello A: registro / inventario / topografico Esempi: • In biblioteca (ma anche altrove): inventario patrimoniale, registro topografico • Registro di classe • Elenco telefonico ? • “Modifica / Trova” quando usate Word • ... T&T 2004/05

  25. Sistemi IR - Modello B: catalogo • chiavi di accesso: PIU’ DI UN DESCRITTORE PUO’ ESSERE ASSEGNATO A OGNI DOCUMENTO COME CHIAVE D’ACCESSO • domande: COME NEL MODELLO A • indicatori di valore informativo: COME NEL MODELLO A • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E’ UGUALE A UNO DI QUELLI ASSEGNATI COME CHIAVI D’ACCESSO AL DOC. T&T 2004/05

  26. Sistemi IR – Pre-coordinati I sistemi IR modelli A-B sono pre-coordinati: l’indicizzatore per rappresentare il contenuto dei documenti costruisce stringhe di ricerca, che l’utente in fase di ricerca deve ripercorrere nello stesso ordine con cui sono state formulate. T&T 2004/05

  27. Sistemi IR - Modello C: booleano limitato all’operatore AND • chiavi di accesso: COME NEL MODELLO B • domande: OGNI DOMANDA PUO’ CONTENERE PIU’ DI UN DESCRITTORE • indicatori di valore informativo: COME NEI MODELLI A, B • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE TUTTI I DESCRITTORI CONTENUTI NELLA DOMANDA SONO UGUALI A QUELLI ASSEGNATI COME CHIAVI D’ACCESSO AL DOC. T&T 2004/05

  28. Sistemi IR - Modello C: esempi • Schede UNITERM (metà anni ’40) EXCURSION 43821 90 241 52 63 34 25 66 17 58 49 130 281 92 83 44 75 86 57 88 119 640 122 93 104 115 146 97 158 139 870 342 157 178 199 207 248 269 298 LUNAR 12457 110 181 12 73 44 15 46 7 28 39 430 241 42 113 74 85 76 17 78 79 820 761 602 233 134 95 136 37 118 109 901 982 194 165 127 198 179 377 288 407 T&T 2004/05

  29. Lunar Sistemi IR - Modello C: esempi • Schede “Peek-a-Boo” (1948) Excursion T&T 2004/05

  30. Document 1 Title: lksd ksdj sjd sjsjfkl Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Document 200 Title: Xksd Lunar sjd sjsjfkl Author: Jones, R. Abstract: Lunar uejm jshy ksd jh uyw hhy jha jsyhe Document 34 Title: lksd ksdj sjd Lunar Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Sistemi IR - Modello C: esempi • Schede “edge-notched” (Mooers, 1951) T&T 2004/05

  31. Sistemi IR - Modello D: booleano • chiavi di accesso: COME NEI MODELLI B, C • domande: COME NEL MODELLO C; I DESCRITTORI UTILIZZABILI NELLE DOMANDE POSSONO ESSERE ASSOCIATI TRA LORO UTILIZZANDO GLI OPERATORI AND, OR, NOT • indicatori di valore informativo: COME NEI MODELLI A, B, C • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SECONDO LA LOGICA COMBINATORIA BOOLEANA T&T 2004/05

  32. Sistemi IR - Modello D: booleano • Gatti • Gatti OR Cani • Gatti AND Cani • Gatti NOTCani • Gatti AND Cani OR Pulci • Gatti WITH Siamesi T&T 2004/05

  33. Logica Booleana Gatti Cani Pulci T&T 2004/05

  34. AND = AND T&T 2004/05

  35. OR = OR T&T 2004/05

  36. AND NOT = AND NOT T&T 2004/05

  37. Sistemi IR - Modello D: booleano • Sul sistema booleano, vedere al sito: <http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/Boolean.pdf> T&T 2004/05

  38. Sistemi IR - Modello D: booleano Esempi: • In biblioteca: OPAC • Database; dominante nei sistemi commerciali prima del WWW T&T 2004/05

  39. Sistemi IR - Modelli E -: vettoriale, “statistical weighting”, probabilistico ... • chiavi di accesso: COME NEI MODELLI B, C, D • domande: COME NEI MODELLI D, E; E’ POSSIBILE “FILTRARE” LE DOMANDE • indicatori di valore informativo: GLI INDICATORI DI VALORE INFORMATIVO SONO TUTTI I NUMERI REALI (il documento può avere maggiore o minore valore informativo in funzione di una domanda) • regola di recupero:AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi T&T 2004/05

  40. RANKING RESULTS • The order in which search results appear. Each search tool uses its own unique algorithm. Most use "fuzzy and" combined with factors such as how often your terms occur in documents, whether they occur together as a phrase, and whether they are in title or how near the top of the text. Popularity is another ranking system. T&T 2004/05

  41. Sistemi IR - Modelli E -: vettoriale, “Statistical Weighting”, probabilistico ... Esempi: • Ricerca Web • Motori e metamotori di ricerca T&T 2004/05

  42. Sistemi IR – Post-coordinati I sistemi IR modelli C-E sono post-coordinati: l’utente combina tra loro i diversi pezzi (gettoni) di informazione per descrivere doc. che potrebbero essere considerati rilevanti. I sistemi post-coordinati utilizzano gli “inverted file”. T&T 2004/05

  43. Inverted File • Inverted Files • This is the primary data structure for text indexes • Basic steps: • Make a “dictionary” of all the tokens in the collection • For each token, list all the docs it occurs in. • Do a few things to reduce redundancy in the data structure T&T 2004/05

  44. Inverted Indexes An Inverted File is a file “inverted” so that rows become columns and columns become rows T&T 2004/05

  45. How Are Inverted Files Created • Documents are parsed to extract tokens. These are saved with the Document ID. Doc 1 Doc 2 Now is the time for all good men to come to the aid of their country It was a dark and stormy night in the country manor. The time was past midnight T&T 2004/05

  46. How Inverted Files are Created • After all documents have been parsed the inverted file is sorted alphabetically. T&T 2004/05

  47. How InvertedFiles are Created • Multiple term entries for a single document are merged. • Within-document term frequency information is compiled. T&T 2004/05

  48. How Inverted Files are Created • Then the file can be split into • A Dictionary file and • A Postingsfile T&T 2004/05

  49. How Inverted Files are Created Dictionary Postings T&T 2004/05

  50. Inverted indexes • Permit fast search for individual terms • For each term, you get a list consisting of: • document ID • frequency of term in doc (optional) • position of term in doc (optional) • These lists can be used to solve Boolean queries: • country -> d1, d2 • manor -> d2 • country AND manor -> d2 • Also used for statistical ranking algorithms T&T 2004/05

More Related