270 likes | 345 Views
Indizierungstechniken im Information Retrieval. Steffen Lang 10.01.06. Seminar S2D2 - Indizierungstechniken im IR. Warum Indizieren?. Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss. Schnelleres Auffinden relevanter Dokumente Bsp.:.
E N D
Indizierungstechniken im Information Retrieval Steffen Lang 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Warum Indizieren? Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Schnelleres Auffinden relevanter Dokumente • Bsp.: • Informationen über Maseratisaus Buch mit 500 Seiten • Vier Seiten befassen sich mit Maseratis • Index umfasst eine Seite • Zeitaufwand ohne Index ca. 100-mal größer Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Merkmale eines Index Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Eignung für verschiedene Retrieval-Modelle • Dauer einer Anfrage in Abhängigkeit der Größe der Dokumentenkollektion n • Größe des Index in Abhängigkeit von n • Algebraische (Vektorraummodell) • Boolesche • Fuzzy Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Übersicht Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Vier verschiedene Indizierungstechniken • Unterscheidung anhand • Invertierte Listen • Signatur-Dateien • Suffix-Arrays • Latent Semantic Indexing • Aufbau • Ablauf einer Anfrage • Merkmale der vorherigen Folie Steffen Lang - 10.01.06
Vokabular Vorkommen 1 2 Autos Maserati Maybach Mazda 3 1, 3 2, 3 1 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 3 Seminar S2D2 - Indizierungstechniken im IR Invertierte Listen Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Liste für jeden Indexterm mit dessen Vorkommen • Vokabular: Menge aller Indexterme • Vorkommen: Menge der Dokument-IDs, evtl. mit Gewichten Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfrage in einzelne Terme zerlegen • Terme im Vokabular suchen • Vorkommen der Terme finden • Vorkommen kombinieren Maserati OR Mazda Autos Maserati Maybach Mazda 3 1, 3 2, 3 1 Maserati 1, 3 Mazda Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: • Anfragedauer: O(n0.8) (*) • Größe: O(n0.85) (*) • (*) nach R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval • Algebraische • Boolesche • Fuzzy Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Sublineare Anfragedauer • Sublineare Größe • Gut Komprimierbar • Suche nach Teilworten nicht möglich Steffen Lang - 10.01.06
1 2 3 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 4 Seminar S2D2 - Indizierungstechniken im IR Signatur-Dateien (1) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Dokumente werden in Blöcke zerlegt • Hashfunktion h bildet Terme auf Signatur aus B Bits ab h(Autos) = 001 h(Maserati) = 010 h(Maybach) = 100 h(Mazda) = 011 Steffen Lang - 10.01.06
S1 S2 S3 S4 010 011 100 011 1 2 3 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 4 Seminar S2D2 - Indizierungstechniken im IR Signatur-Dateien (2) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • ODER-Verknüpfung der Signaturen eines Blocks i ergibt Blocksignatur Si • Menge der Si ergibt Signatur-Datei h(Autos) = 001 h(Maserati) = 010 h(Maybach) = 100 h(Mazda) = 011 Signatur-Datei Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage (1) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Signaturen der Anfrageterme berechnen • ODER-Anfragen: Ergebnisse vereinigen • UND-Anfragen: Signatur Q der Anfrage durch ODER- Verknüpfung bilden Q Maserati AND Autos 011 h(Autos) = 001 h(Maserati) = 010 h(Maybach) = 100 h(Mazda) = 011 Steffen Lang - 10.01.06
S1 S2 S3 S4 010 011 100 011 Q & S1 = 010 Q & S2 = 011 Q & S3 = 000 Q & S4 = 011 False Positive Treffer Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage (2) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfragesignatur mit Signaturen der Blöcke mit UND verknüpfen • Potentieller Treffer falls Q & Si = Q • Fehler zulassen oder Online-Suche Q 011 Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage (3) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Problem an Blockgrenzen • Bsp.: Suche nach Satz mit Maybach und Maserati • Lösung: Blöcke überlappen lassen 1 2 3 Ein Maserati ist schneller als ein Mazda. Ein Maybach ist teuer. Maybach und Maserati sind seltene Autos. 4 Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: Boolesche • Anfragedauer: O(n) • Größe: O(n) Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Schnelle Bitoperationen • gut für Phrasensuche geeignet • False Positives • Für wenige Retrieval-Modelle geeignet Steffen Lang - 10.01.06
1 3 2 4 5 c ab b 5 abc c c abc 1 3 2 4 Seminar S2D2 - Indizierungstechniken im IR Suffix-Arrays Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Kompakte Speicherform für Suffix-Trees • Blätter werden in lexikographischer Reihenfolge in einem Array gespeichert ababc Suffix-Tree Suffix-Array Steffen Lang - 10.01.06
1 3 2 4 5 S1=ababc S2=babc Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfrage Q als String betrachten • Binäres Suchen der Suffixe S1 und S2 mit S1≤Q<S2 • Pointer zwischen denen zu S1 und S2 als Ergebnis ababc Q = ab Ergebnis: 1, 3 Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: Boolesche • Anfragedauer: O(logn) • Größe: O(n) Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Für nicht-textuelle Daten geeignet • Suche nach Teilwörtern möglich • langsamere Suche als bei Invertierter Liste Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Latent Semantic Indexing (1) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Grundlage: Term-Dokument-Matrix • Werte geben Gewicht eines Terms im Dokument an Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Latent Semantic Indexing (2) Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Matrix im Allgemeinen hochdimensional • Singulärwertzerlegung und anschließende Reduktion auf kleinere Matrix • möglichst genaue Erhaltung der Dokumentinformationen Steffen Lang - 10.01.06
Term-Konzept-Relation 0.58 0 0.58 0 0.58 0 0 0.71 0 0.71 Maserati Maybach ( 1 1 0 0 0 ) = ( 1.16 0 ) Seminar S2D2 - Indizierungstechniken im IR Ablauf einer Anfrage Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Anfrageauswertung durch Vektor- Matrizenmultiplikation und Abstandsbestimmung Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Merkmale Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Modelle: LSI • Anfragedauer: hoch, abhängig von Dimensionen • Größe: abhängig von Dimensionen Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Vor- und Nachteile Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Semantische Beziehungen werden erkannt • ermöglicht bessere Resultate • aufwendige Berechnung • langsame Anfrageauswertung Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Zusammenfassung Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Ausblick Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss • Datenbestände wachsen • Prozessoren werden schneller • Größter Zeitaufwand für Plattenzugriffe • Zunehmende Bedeutung der Kompression Steffen Lang - 10.01.06
Seminar S2D2 - Indizierungstechniken im IR Motivation Invertierte Listen Signatur-Dateien Suffix-Arrays LSI Schluss Vielen Dank für die Aufmerksamkeit! Fragen? Steffen Lang - 10.01.06