140 likes | 266 Views
Improving Wikipedia’s Accuracy: Is Edit Age a Solution?. Brendan Luyt, Tay Chee Hsien Aaron, Lim Hai Thian and Cheng Kian Hong Wee Kim Wee School of Communication & Information, Nanyang Technological University, Singapore. Wikipedia: Succès ou Échec?. Encyclopédie “online”
E N D
Improving Wikipedia’s Accuracy: Is Edit Age a Solution? Brendan Luyt, Tay Chee Hsien Aaron, Lim Hai Thian and Cheng Kian Hong Wee Kim Wee School of Communication & Information, Nanyang Technological University, Singapore
Wikipedia: Succès ou Échec? • Encyclopédie “online” • Nupedia Wikipedia • Taille de Wikipedia • 2,644,525 articles en anglais • 733,955 articles en français • http://en.wikipedia.org/wiki/Special:Statistics • Différences • Tout le monde peut éditer/rédiger un article • Problèmes • Vandalisme • Publicité • Attaque personnelle
L’exactitude de Wikipedia • Etude par la revue ’Nature’ • 42 articles de Wikipedia et Britannicadans le domaine science et math • Résultat • Erreurs ou omissions (162/123) • Majeur ou important (4/4) • Etude publié dans une magazine informatique allemande • 66 articles de Wikipedia version allemande, Encarta de Microsoft et Brockhaus(une encyclopédie allemande) • Résultat • Excellent ou 5 points(24/17/12)
Comment mesurer l’exactitude? • 2 approches • Basé sur la validation de l’article par les ‘utilisateurs de confiances’(l’article est évalué par les experts). • Evaluer automatiquement la qualité de l’article en calculant les métriques basé sur les métadonnées
Evaluation automatique • Plusieurs méthodes • Lih propose de calculer les métriques suivantes • “Rigor” (le nombre total de modification pour un article jusqu’à présent) • “Diversity” (le nombre total d’éditeur pour un article ) • McGuinness utilise le ratio de liens • Le nombre de lien entrant pour chaque article comme l’algorithme ‘Pagerank’ • Anthony, Smith, et Williamson utilise une stratégie contraire de McGuinness • Évaluer un éditeur, ensuite ses articles.
Approche de CrossCodage de couleur pour les fragments de phrase • Dans un article il y a des paragraphes ou segments qui sont plus confident que les autres • Cross propose de les coder avec différentes couleurs selon combien de temps ils sont survécues dans le sens le nombre d’édition (modification) sans être effacé. • Hypothèse de Cross • L’exactitude d’un paragraphe est liée à son âge de survie. • Correct?
Modifications entraînant les erreurs • Le temps de survie en termes de nombre de édition/modification (nombre de modifications qu'ils ont survécu sans être enlevé) • Le temps de survie en termes de temps (nombre de jour qu'ils ont survécu sans être enlevé)
Méthode • Déterminer la version • Rechercher dans les versions passée de l'article pour la première fois cette erreur apparaît
Résultat • Analyse de l’erreur en position ordinale • Analyse de l’erreur en longueur de temps
Conclusion • Le mécanisme pour classifier les paragraphes selon l'âge n’est pas capable d’évaluer le Wikipedia • Pas de rapport entre l’exactitude et l’âge d’édition