180 likes | 289 Views
Experimente. Seminar "Experimentielle Evaluierung im IR". Aufgabe 1. DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=1 P0=0.5 vs. P0=1. ExpUtils.java. Hier wird der Zugang zur Datenbank vorkonfiguriert ( thibaul t)
E N D
Experimente Seminar "Experimentielle Evaluierung im IR" 28.02.2006 Ebru Iscan, Andrea Kováčová
Aufgabe 1 • DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs • BM 25 vs. TF.IDF • c=1 • P0=0.5 vs. P0=1 28.02.2006 Ebru Iscan, Andrea Kováčová
ExpUtils.java Hier wird der Zugang zur Datenbank vorkonfiguriert (thibault) Parameter der Aufgabe werden durch die Kommandozeile übergeben Parameter dtf: Syntax: -dtf <Anzahl> Default: 0 (DTFRS) In der Aufgabe 1 wahlweise DTFRS (0) oder MaxNumDTFRS(5) oder MaxNumDTFRS(10) Indexierungsfunktionen: Syntax: -type plain|stemen_bm25|stemen_tfidf Default: plain In der Aufgabe wahlweise stemen_bm25 oder stemen_tfidf Also muss angegeben werden Parameter c: Syntax: -c <Wert> Default: 1.0 In der Aufgabe 1 immer 1.0 – muss nicht angegeben werden Parameter P0: Syntax: -p0 <Wert> Default: 1.0 In der Aufgabe 1 wahlweise 0.5 oder 1.0 Wesentliche Funktionen: parseArgs() – Ermittelt die Afgabeparameter aus der Kommandozeile getDB() – Baut die Verbindung automatisch auf createPIRE(<KollektionsName>) – registriet jeweilige Operatoren und bildet ihre Attribute im PIRE createRS() – baut den jeweilgen Resource Selection Objekt auf – DTFRS oder MaxNumDTFRS(n) 28.02.2006 Ebru Iscan, Andrea Kováčová
Indexierung • Die allgemeine Indexierung der Dokumenteninhalte wird ausgeführt • Operatoren über den Textinhalt und ihre interne Konfiguration werden mit den Parameter aus der Kommandozeile gesetzt • Die Indexierung wurde auf alle Kollektionen ausgeweitet • Für jede Kollektion wird ein PIRE-Objekt gebildet • Aus allen *.gz-Dateien in der jeweiligen Kollektion werden anhand der vordefinierten Trennzeichen Dok-Ids extrahiert, danach wird der Dokumenteninhalt als TextAttribut für die Indexierung registriet • Danach werden alle Indexe der Kollektion/PIRE-Objekt berechnet 28.02.2006 Ebru Iscan, Andrea Kováčová
Indexierung 28.02.2006 Ebru Iscan, Andrea Kováčová
Aufbau der digitalen Bibliothek • Die Resource Description nach dem allgemeinen Format für Digitale Bibliotheken wird erstellt • Die digitale Bibliothek wird 24 mal (pro Kollektion) durch Verwendung des zustänidgen PIRE-Objekts gebaut • Standardkonfiguration für DTF wird verwendet • Interne Konfigurationswerte (c und P0) werden anschliessend gespeichert 28.02.2006 Ebru Iscan, Andrea Kováčová
Resource Description 28.02.2006 Ebru Iscan, Andrea Kováčová
Abfragekosten bestimmen • Die Kosten der Abfragen werden im bestimmt • Immer pro Kollektion mit dem zuständigen PIRE-Objekt • Konfiguration der digitalen Bibliothek wird dazu geladen • Die Kosten werden immer einzeln für die jeweilige digitale Bibliothek berechnet • In dem aktuellen Verzeichnis wird die Datei 51.costs mit den Ergebnissen gebildet 28.02.2006 Ebru Iscan, Andrea Kováčová
Kosten berechnen 28.02.2006 Ebru Iscan, Andrea Kováčová
Vorbereitung der Abfrage • Die berechneten Abfragekosten werden ausgewert • Die Resource Selection untersucht alle digitalen Bibliotheken • Die entsprechenden Abfragekosten werden aus der vorher angelegten Datei geladen • Resource Selection wird auf 300 relevante Dokumente begrenzt • Ergebnise sind auch auf dem Bilschirm sichtbar 28.02.2006 Ebru Iscan, Andrea Kováčová
Resource Selection 28.02.2006 Ebru Iscan, Andrea Kováčová
Retrieval durchführen • Retrieval der Dokumente wird ausgeführt • Alle Kollektionen mit vorberechneten Abfragekosten werden dazu genommen • Ergebnis wird in die Datei result im aktuellen Verzeichnis gespeichert • Ergebnisse im standarden TREC-Format 28.02.2006 Ebru Iscan, Andrea Kováčová
Retrieval 28.02.2006 Ebru Iscan, Andrea Kováčová
Probleme • ERROR unidu.db - select count(distinct concat(concat(prob,concat('@@@',arg0)),concat('@@@',arg1))) from ap88_1a_text_plain_df java.sql.SQLException: General error message from server: "Table 'exp_f.ap88_1a_text_plain_df' doesn't exist“ Ursache: Nicht bekannt, wahrscheinlich muss ist eine spezielle Konfigurierung notwendig, damit nich „plain“ als Default, sondern je nach Experiment stemen_bm25 oder stemen_tfidf gewählt wird • java.io.FileNotFoundException: conf/trec123.topics (No such file or directory) Ursache: Konfigurationsdateien nicht im CLASSPATH, sondern im aktuellen Verzeichnis erwartet Umgehungslösung: Konfiguration ins aktuelle Verzeichnis kopieren oder ein Link setzen • Unter Eclipse ist kein Debuggen möglich, weil die Zeitmessung beim Start FileNotFoundException wirft 28.02.2006 Ebru Iscan, Andrea Kováčová
Tabelle in DB Beispiel: Werte in der Datenbank –Document Frequency einzelner nach stemen() extrahierten Wörter mit Gewichtung 28.02.2006 Ebru Iscan, Andrea Kováčová
Aufgabe 2 • DTF max. 10 DLs vs. DTF max. 20 DLs • c=1 • P0=0.25 vs. P0=0.75 28.02.2006 Ebru Iscan, Andrea Kováčová
ComputeForTopic 28.02.2006 Ebru Iscan, Andrea Kováčová
ComputeForTopic 28.02.2006 Ebru Iscan, Andrea Kováčová