220 likes | 325 Views
CORIA’10: Conférence en Recherche d’Information et Applications 18-20 mars, Sousse, Tunisie. Impact du « biais des ex aequo » dans les évaluations de Recherche d’Information. Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment.
E N D
CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie Impact du « biais des ex aequo »dans les évaluationsde Recherche d’Information Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives
1. Motivation illustration du biais des « ex aequo »G. Cabanac et al. Scénario de participation à TREC (1/2) Topic 031 “satellite launch contracts” 5 documents pertinents Chris Ellen la seule différence C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) malchanceux chanceux Pourquoi de telles différences ?
1. Motivation illustration du biais des « ex aequo »G. Cabanac et al. Scénario de participation à TREC (2/2) Chris Ellen C = (N, 0.8), (P, 0.8), (N, 0.5) E = (N, 0.8), (P, 0.8), (N, 0.5) la seule différence Après 15 jours de dur labeur… Seule différence : le nom du document
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives
2. Contexte & problématique Biais des « ex aequo »G. Cabanac et al. Mesurer l’efficacité des Systèmes de RI • User-centered vs. System-focused[Spärk Jones & Willett, 1997] • Campagnes d’évaluation • 1958 Cranfield UK • 1992 TREC TextRetrievalConference USA • 1999 NTCIR NII Test Collection for IR Systems Japon • 2001 CLEF Cross-LanguageEvaluation Forum Europe • … • Méthodologie « Cranfield » • Tâche • Collection de test • Corpus • Topics • Qrels • Mesures : MAP, P@X... [Voorhees, 2007]
2. Contexte & problématique Biais des « ex aequo »G. Cabanac et al. Évaluer un run : réordonnancement de TREC • Qrels = qid, iter,docno, rel Run = qid, iter,docno, rank,sim, run_id pertinents[1 ; 127] (N, 0.8), (P, 0.8), (N, 0.5) Réordonnancement de TRECqid asc, sim desc, docno desc (P, 0.8), (N, 0.8), (N, 0.5) Mesure d’efficacitéMAP, P@X, MRR…
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives
3. Proposition Stratégies de réordonnancementG. Cabanac et al. Conséquences du biais des ex aequo • Mesures d’évaluation d’un SRI s • RR(s,t) 1/rang pour le 1er document pertinent, pour le topict • P(s,t,d) précision au document d, pour le topict • AP(s,t)précision moyenne pour le topict • MAP(s)précision moyenne globale • Biais des ex aequo • La collection Wall Street Journal serait-elle plus pertinente qu’AssociatedPress ? • Problème 1 comparaison de 2 systèmes AP(s1, t) vs. AP(s2, t) • Problème 2 comparaison de 2 topics AP(s, t1) vs. AP(s, t2) Sensibles au rang des documents Ellen Chris
3. Proposition Stratégies de réordonnancementG. Cabanac et al. Réordonnancements alternatifs non biaisés • Réordonnancement conventionnel (TREC) • Ex aequo triés de Z à A qidasc, simdesc, docnodesc • Réordonnancement réaliste • Les pertinents en dernier qidasc, simdesc, relasc, docnodesc • Réordonnancement optimiste • Les pertinents en premier qidasc, simdesc, reldesc, docnodesc ex aequo ex aequo
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives
4. Expérimentation Impact du biais des ex aequoG. Cabanac et al. Impact du biais des ex aequo • Étude menée sur 4 tâches de TREC • 22 éditions • 1360 runs • Évaluation de l’impact du biais des ex aequo • Proportion des ex aequo dans les runs soumis fréquence du biais • Impact sur les valeurs des mesures • Top 5 des différences constatées • Pourcentage de la différence observée • Significativité de la différence observée : t-test pairé unilatéral 1993 1997 1998 1999 2000 2002 2004 2009 web filtering routing adhoc 3 Go de données issues de trec.nist.gov
4. Expérimentation Impact du biais des ex aequoG. Cabanac et al. Proportion des ex aequo dans les runs soumis En moyenne 25,2 % d’un run = docs ex aequo En moyenne 10,6 docs par groupe de similarité
4. Expérimentation Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Reciprocal Rank (RR)
4. Expérimentation Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Average Precision (AP)
4. Expérimentation Impact du biais des ex aequoG. Cabanac et al. Impact du biais sur Mean Average Precision (MAP) Différence en terme de rangs(t de Kendall) non significative
4. Expérimentation Impact du biais des ex aequoG. Cabanac et al. Phénomène de « bourrage » des runs Pourquoi restituer des documentsévalués non pertinents (sim = 0) ? ... ... ... Éventuellement pour grappiller des points ? Ellen ... ... ... Problème minimisé avec la stratégie de réordonnancement réaliste pertinents en queue de liste Chris gecrd2@adhoc-1993
4. Expérimentation Impact du biais des ex aequoG. Cabanac et al. Travaux connexes en évaluation de la RI Fiabilité du nombre de topics ?[Buckley & Voorhees, 2000] 25[Voorhees & Buckley, 2002] tx erreur[Voorhees, 2009] n collections Fiabilité des qrels ?[Voorhees, 1998] qualité[Al-Maskari et al., 2008] TREC vs. TREC [Voorhees, 2007] Fiabilité des mesures ?[Buckley & Voorhees, 2000] MAP [Sakai, 2008] ‘system biais’[Moffat & Zobel, 2008] nouvelles mesures [Mothe et al., 2010] redondance Fiabilité du pooling ?[Zobel, 1998] approximation [Sanderson & Joho, 2004] manuel[Buckley et al., 2007] adapt. taille [Cabanac et al., 2010] biais des ex aequo
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Plan • Motivation scénario de participation à TREC • Contexte évaluer l’efficacité des SRIProblématique biais des ex aequo influençant les résultats • Proposition stratégies de réordonnancement • Expérimentationimpact du biais des ex aequo • Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al. Conclusions et perspectives • Contexte : évaluation de la RI • TREC et autres campagnes basées sur trec_eval • Identification du biais des ex aequo • Facteur chance mesure = f (qualité_intrinsèque, chance) • Phénomène de « bourrage » des runs • Proposition : stratégies de réordonnancement non biaisées • Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier • Impact significatif du biais des ex aequo • Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP • Corrélation forte, mais différence statistiquement significative • Pas de différence significative sur les rangs issus de la MAP ( de Kendall) • Perspectives : étude du bourrage, mesures sans réordonnement
CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie Merci