500 likes | 652 Views
Teoria e tecniche della catalogazione e classificazione Sistemi di recupero dell’informazione ricerca4sistemi. Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006. Abbiamo visto:. Informazione Dati/Informazione/Conoscenza/Sapere Teoria dell’informazione ( C. Shannon)
E N D
Teoria e tecniche della catalogazione e classificazioneSistemi di recupero dell’informazionericerca4sistemi Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006
Abbiamo visto: • Informazione • Dati/Informazione/Conoscenza/Sapere • Teoria dell’informazione (C. Shannon) • Ciclo di trasferimento dell’informazione
Gerarchia dell’informazione Wisdom Knowledge Information Data
Message Message Source Encoding Decoding Destination Channel Message Message Source Encoding (writing/indexing) Storage Decoding (Retrieval/Reading) Destination Teoria dell’informazione • Meglio indicata come “Teoria della comunicazione” • La comunicazione oltrepassa tempo e spazio Noise
Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Ciclo di trasferimento dell’informazione
Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Temi principali del corso
Oggi • Sistemi di recupero dell’informazione
Information Retrieval (IR) • L’espressione “information retrieval” è coniata da C. Mooers nel 1952 • Obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti rilevanti per un particolare utente con una particolare richiesta informativa • The goal is to search large document collections (millions of documents) to retrieve small subsets relevant to the user’s information need • Rilevanza è un concetto chiave dell’IR, su cui torneremo
Sistemi IR: prime rappresentazioni fisiche • Pinakes – Biblioteca di Alessandria • Indici e concordanze della Bibbia (Ugo di San Caro, 1247) • Indici dei giornali
Sistemi IR: rappresentazioni mentali • Mnemotecnica, palazzi della memoria (Simonide di Ceo)
Sistemi IR: rappresentazioni bibliografiche • Cataloghi di biblioteca • Bibliografie
Visioni di sistemi IR • Paul Otlet (’30) • Emanuel Goldberg (‘20 – ’40) • H.G. Wells, World Brain: the idea of a permanent World Encyclopedia, 1937 (Introduzione al XVIII vol. dell’Encyclopedie Francaise) • Vannevar Bush, As we may think, “Atlantic Monthly”, 1945 - Memex
Sistemi IR: storia più recente • Radici nella “Information Explosion” che segue la II GM • L’espressione “Information Retrieval” è coniata da C. Mooers nel 1952 • A partire dagli anni ‘50, interesse verso sistemi IR “computer-based” • H.P. Luhn presso IBM (1958) • Modello probabilistico (Maron & Kuhns 1960) • Sviluppo del sistema booleano presso Lockheed (‘60) • Modello vettoriale (Salton presso Cornell U. 1965) • Metodi di “statistical weighting” (‘70 – ‘80) • Interfacce utenti, applicazioni su larga scala (‘90)
Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents
Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents
Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents
Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents
Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents
User’s Information Need Componenti di un sistema IR Documents Index Records and Document Surrogates Indexing Process Authoritative Indexing Rules severe information loss Query Specification Process Retrieval Rules Retrieval Process Query List of Documents Relevant to User’s Information Need UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 04/07/98 9
Sistemi IR: struttura (Cooper - Maron, 1985) • l’insieme delle possibili chiavi di accesso assegnate ai documenti; • l’insieme delle domande formulabili dagli utenti; • l’insieme degli indicatori di valore informativo da assegnare ai documenti; • una regola di recupero.
Sistemi IR - Modello A: registro / inventario / topografico • chiavi di accesso: UN SOLO DESCRITTORE PER OGNI DOCUMENTO • domande: UN SOLO DESCRITTORE IN OGNI DOMANDA • indicatori di valore informativo: 0 (IL DOC. NON HA VALORE INFORMATIVO) / 1 (IL DOC. HA VALORE INFORMATIVO) • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E’ UGUALE A QUELLO ASSEGNATO COME CHIAVE D’ACCESSO
Sistemi IR - Modello A: registro / inventario / topografico Esempi: • In biblioteca (ma anche altrove): inventario patrimoniale, registro topografico • Registro di classe • Elenco telefonico ? • “Modifica / Trova” quando usate Word • ...
Sistemi IR - Modello B: catalogo • chiavi di accesso: PIU’ DI UN DESCRITTORE PUO’ ESSERE ASSEGNATO A OGNI DOCUMENTO COME CHIAVE D’ACCESSO • domande: COME NEL MODELLO A • indicatori di valore informativo: COME NEL MODELLO A • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E’ UGUALE A UNO DI QUELLI ASSEGNATI COME CHIAVI D’ACCESSO AL DOC.
Sistemi IR – Pre-coordinati I sistemi IR modelli A-B sono pre-coordinati: l’indicizzatore per rappresentare il contenuto dei documenti costruisce stringhe di ricerca, che l’utente in fase di ricerca deve ripercorrere nello stesso ordine con cui sono state formulate.
Sistemi IR - Modello C: booleano limitato all’operatore AND • chiavi di accesso: COME NEL MODELLO B • domande: OGNI DOMANDA PUO’ CONTENERE PIU’ DI UN DESCRITTORE • indicatori di valore informativo: COME NEI MODELLI A, B • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE TUTTI I DESCRITTORI CONTENUTI NELLA DOMANDA SONO UGUALI A QUELLI ASSEGNATI COME CHIAVI D’ACCESSO AL DOC.
Sistemi IR - Modello C: esempi • Schede UNITERM (metà anni ’40) EXCURSION 43821 90 241 52 63 34 25 66 17 58 49 130 281 92 83 44 75 86 57 88 119 640 122 93 104 115 146 97 158 139 870 342 157 178 199 207 248 269 298 LUNAR 12457 110 181 12 73 44 15 46 7 28 39 430 241 42 113 74 85 76 17 78 79 820 761 602 233 134 95 136 37 118 109 901 982 194 165 127 198 179 377 288 407
Lunar Sistemi IR - Modello C: esempi • Schede “Peek-a-Boo” (1948) Excursion
Document 1 Title: lksd ksdj sjd sjsjfkl Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Document 200 Title: Xksd Lunar sjd sjsjfkl Author: Jones, R. Abstract: Lunar uejm jshy ksd jh uyw hhy jha jsyhe Document 34 Title: lksd ksdj sjd Lunar Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Sistemi IR - Modello C: esempi • Schede “edge-notched” (Mooers, 1951)
Sistemi IR - Modello D: booleano • chiavi di accesso: COME NEI MODELLI B, C • domande: COME NEL MODELLO C; I DESCRITTORI UTILIZZABILI NELLE DOMANDE POSSONO ESSERE ASSOCIATI TRA LORO UTILIZZANDO GLI OPERATORI AND, OR, NOT • indicatori di valore informativo: COME NEI MODELLI A, B, C • regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SECONDO LA LOGICA COMBINATORIA BOOLEANA
Sistemi IR - Modello D: booleano • Gatti • Gatti OR Cani • Gatti AND Cani • Gatti NOTCani • Gatti AND Cani OR Pulci • Gatti WITH Siamesi
Logica Booleana Gatti Cani Pulci
AND = AND
OR = OR
AND NOT = AND NOT
Sistemi IR - Modello D: booleano • Sul sistema booleano, vedere al sito: <http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/Boolean.pdf>
Sistemi IR - Modello D: booleano Esempi: • In biblioteca: OPAC • Database; dominante nei sistemi commerciali prima del WWW
Sistemi IR - Modelli E -: vettoriale, “statistical weighting”, probabilistico ... • chiavi di accesso: COME NEI MODELLI B, C, D • domande: COME NEI MODELLI D, E; E’ POSSIBILE “FILTRARE” LE DOMANDE • indicatori di valore informativo: GLI INDICATORI DI VALORE INFORMATIVO SONO TUTTI I NUMERI REALI (il documento può avere maggiore o minore valore informativo in funzione di una domanda) • regola di recupero:AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi
RANKING RESULTS • The order in which search results appear. Each search tool uses its own unique algorithm. Most use "fuzzy and" combined with factors such as how often your terms occur in documents, whether they occur together as a phrase, and whether they are in title or how near the top of the text. Popularity is another ranking system.
Sistemi IR - Modelli E -: vettoriale, “Statistical Weighting”, probabilistico ... Esempi: • Ricerca Web • Motori e metamotori di ricerca
Sistemi IR – Post-coordinati I sistemi IR modelli C-E sono post-coordinati: l’utente combina tra loro i diversi pezzi (gettoni) di informazione per descrivere doc. che potrebbero essere considerati rilevanti. I sistemi post-coordinati utilizzano gli “inverted file”.
Inverted File • Inverted Files • This is the primary data structure for text indexes • Basic steps: • Make a “dictionary” of all the tokens in the collection • For each token, list all the docs it occurs in. • Do a few things to reduce redundancy in the data structure
Inverted Indexes An Inverted File is a file “inverted” so that rows become columns and columns become rows
How Are Inverted Files Created • Documents are parsed to extract tokens. These are saved with the Document ID. Doc 1 Doc 2 Now is the time for all good men to come to the aid of their country It was a dark and stormy night in the country manor. The time was past midnight
How Inverted Files are Created • After all documents have been parsed the inverted file is sorted alphabetically.
How InvertedFiles are Created • Multiple term entries for a single document are merged. • Within-document term frequency information is compiled.
How Inverted Files are Created • Then the file can be split into • A Dictionary file and • A Postingsfile
How Inverted Files are Created Dictionary Postings
Inverted indexes • Permit fast search for individual terms • For each term, you get a list consisting of: • document ID • frequency of term in doc (optional) • position of term in doc (optional) • These lists can be used to solve Boolean queries: • country -> d1, d2 • manor -> d2 • country AND manor -> d2 • Also used for statistical ranking algorithms
How Inverted Files are Used Query on “time” AND “dark” 2 docs with “time” in dictionary -> IDs 1 and 2 from posting file 1 doc with “dark” in dictionary -> ID 2 from posting file Therefore, only doc 2 satisfied the query. Dictionary Postings
Prossimamente • IR: concetti di base • Processo di ricerca e recupero dell’informazione • Dalla prossima settimana vedremo alcuni esempi di sistemi IR modelli D, E