270 likes | 426 Views
Praxisteil. Seminar „experimentelle Evaluierung in IR“ WS05/06 Gruppe A. Experimental setup. Collections : TREC-123, wt10g Index : BM25 und TFIDF Queries : - Topics 51-100 aus trec123.topics (für den ersten Teil) - Topics 736083,... Aus wt10g.topics.1000
E N D
Praxisteil Seminar „experimentelle Evaluierung in IR“ WS05/06 Gruppe A
Experimental setup • Collections: TREC-123, wt10g • Index: BM25 und TFIDF • Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil) - Topics 736083,... Aus wt10g.topics.1000 (100 aus 1000 Topics für den zweiten Teil)
Aufgabenstellung • Experiment (1) DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=0.5 P0=0.5 vs. P0=1 • Experiment (2) DTF vs. DTF max. 10 DLs c=0.5 vs. c=1 P0=1
Vorgehensweise • Indexierung • Resource description • Kostenberechnung • Resource selection
Vorgehensweise • Indexierung eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern
Vorgehensweise • Indexierung (cont.) • Show tables from exp_a like ‚ap88%‘; | ap88_8c_text_stemen_bm25_dl | | ap88_8c_text_stemen_bm25_docid | | ap88_8c_text_stemen_bm25_expectation | | ap88_8c_text_stemen_bm25_idb_rd | | ap88_8c_text_stemen_bm25_rd | | ap88_8c_text_stemen_bm25_tf | | ap88_8c_text_stemen_bm25_tmp1 | | ap88_8c_text_stemen_bm25_variance | | ap88_8c_text_stemen_bm25_weight | | ap88_8c_text_stemen_tfidf_df | | ap88_8c_text_stemen_tfidf_dl | | ap88_8c_text_stemen_tfidf_docid | | ap88_8c_text_stemen_tfidf_expectation | | ap88_8c_text_stemen_tfidf_idb_rd | | ap88_8c_text_stemen_tfidf_maxTF | | ap88_8c_text_stemen_tfidf_rd | | ap88_8c_text_stemen_tfidf_tf | | ap88_8c_text_stemen_tfidf_tmp1 | | ap88_8c_text_stemen_tfidf_variance | | ap88_8c_text_stemen_tfidf_weight | +-------------------------------------------------------------+
Vorgehensweise • Resource description
Vorgehensweise • Resource selection
Vorgehensweise ResourceSelection{ GenericDL[ap88_4c]=[num=50,costs=0.15566352713854062],Generic DL[ap88_4a]=[num=71,costs=0.2210565707566304], GenericDL[ap88_2c]=[num=41,costs= 0.12752493057416925], GenericDL[ap88_3a]=[num=42,costs=0.13079528016015488],GenericDL[ap88_4b]=[num=96,costs=0.29874969566379744]} ResourceSelection{ GenericDL[ap88_3b]=[num=62,costs=0.1706536429720925], GenericD L[ap88_4a]=[num=55,costs=0.15093146996168677], GenericDL[ap88_2c]=[num=56,costs= 0.15418909002719608], GenericDL[ap88_3a]=[num=58,costs=0.1593030015695942], Gene ricDL[ap88_1b]=[num=69,costs=0.18973110056079268]} ... • Resource selection
Vorgehensweise • Resource selection (Durchlaufen von 100 Topics): Relevanzurteile: (DTF5, bm25) 051 0 AP880212-0020 1 0.999999999999978 1 051 0 AP880212-0093 1 0.673631123919296 1 051 0 AP880212-0120 1 0.655220742817087 1 052 0 AP880212-0060 1 1.0 1 052 0 AP880212-0009 1 0.970960077124136 1 052 0 AP880212-0056 1 0.438141643714791 1 052 0 AP880212-0019 1 0.400958727204647 1 …
BM25 vs. TFIDF • BM25 -Ein Ranking Modell- Die Performance von BM25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter.- Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen, die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind. • TF-IDF - TF: Term Frequency - IDF: Inverse Document Frequency log(N/DF) N: Gesamtzahl der Dokumente der Kollektion DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt
BM25 vs. TFIDF (cont.) • BM25 • TFIDF
Trec_eval (Bsp.) • Queryid (Num): 100 • Total number of documents over all queries • Retrieved: 29157 • Relevant: 48365 • Rel_ret: 2030 • Interpolated Recall - Precision Averages: • at 0.00 0.3369 • at 0.10 0.0481 • at 0.20 0.0120 • at 0.30 0.0022 • at 0.40 0.0000 • at 0.50 0.0000 • at 0.60 0.0000 • at 0.70 0.0000 • at 0.80 0.0000 • at 0.90 0.0000 • at 1.00 0.0000 • Average precision (non-interpolated) for all rel docs(averaged over queries) • 0.0142 • Precision: • At 5 docs: 0.1580 • At 10 docs: 0.1460 • At 15 docs: 0.1493 • At 20 docs: 0.1525 • At 30 docs: 0.1450 • At 100 docs: 0.1095 • At 200 docs: 0.0836 • At 500 docs: 0.0406 • At 1000 docs: 0.0203 • R-Precision (precision after R (= num_rel for a query) docs retrieved): • Exact: 0.0480
Evaluation: fixed number of selected DLs (BM25) DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)
Evaluation: fixed number of selected DLs (BM25) DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)
Parameterauswahl • Die Veränderung von dem Parameter p0 wird die gesamten Retrievalergebnisse nicht beeinflussen. • Die Veränderung von c führt aber zur Änderung der Retrievalqualität.
Experiment Teil2 • Fast gleicher Code für Retrieval • Unterschiedliche Topics • Änderung von Operator (plain statt stemen_bm25 oder stemen_tfidf) • Größere Kollektionsmenge
Probleme • (1) ArrayIndexOutOfBounds Exception bei ComputeForTopic Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die ArrayIndexOutOfBoundsException aus. Lösung: Erst Indexierung, um die Datenbanken zu erzeugen. • (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei. Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt. Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit anderem Namen auswählen.
Probleme (cont.) • (3)Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert. Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt, so dass Resource Description nicht richtig funktioniert hat. Lösung: Bei DTFPDatalogConfig „exp_“ durch „wt10g_“ ersetzen • (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java.lang.OutOfMemoryError geliefert... Grund: Das hat irgendwie mit Speicher von Heap zu tun... Lösung: ?
Zusammenfassung • DTF:- guter Ranking Algorithmus- abhängig von der Anzahl der zu selektierenden DLs - bessere Ergebnisse – ohne Beschränkung auf die Anzahl der zu selektierenden DLs • Bei BM25 können im Vergleich zu TFIDF bessere Ergebnisse geliefert werden. • Die Recall-Precision Funktionp0 hat keinen Einfluss auf die Retrievalergebnisse. • Eine Erhöhung von der linearen mapping Funktionc führt aber zur Verbesserung der Retrievalqualität. • Wie kann man die Ergebnisse noch verbessern? -> Relevance Feedback, DTF-cori