250 likes | 330 Views
Autour des autorités. Journées ABES 2012 Yann Nicolas . Réseaux d’autorités. IdRef et les autres. Sudoc Notices bibliographiques. IdRef Notices d’autorité. Articles open access. Calames. theses.fr. Bib. Num . Sudoc Notices bibliographiques. Cours en ligne. IdRef
E N D
Autour des autorités Journées ABES 2012 Yann Nicolas
Réseaux d’autorités IdRef et les autres
Sudoc Notices bibliographiques IdRef Notices d’autorité
Articles open access Calames theses.fr Bib. Num. Sudoc Notices bibliographiques Cours en ligne IdRef Notices d’autorité
Articles open access Calames theses.fr Bib. Num. Sudoc Notices bibliographiques Référentiels locaux Cours en ligne ? IdRef Notices d’autorité ISNI BnF D’autres référentiels d’autorité globaux ORCID Viaf
Fichier d’autorités virtuel et international • Projet OCLC, LC, DnB et BnF jusqu’en 2012 • Service OCLC depuis • Mise en correspondance de fichiers d’autorités préexistants (dont BnF, IdRef, etc.) • Pas de possibilité directe de création, ni de modification
International Standard Name Identifier • NormeISO (ISO 27729) • Un ID unique pour les acteurs des industries créatives • D’abord pour la gestion des droits • Pas d’attribution d’ID directe • Passer par une agence d’enregistrement (Qui ?) • VIAF représente l’immense majorité de la base ISNI
Open Researcher Contributor Identification Initiative • Cible : auteursscientifiques • Initiative des éditeurs • Rôle important de Thomson Reuters, qui commercialise la base de citations Web of Science • Les chercheurspourrontdirectement se créer et modifier leurprofil et leur ID • Du producteur au consommateurrevendeur
Coexistence des référentiels • Soit la concurrence sauvage entre autorités • Locales • Globales • Soit il faut relier ces référentiels entre eux • Mais comment ? • Différents modèles possibles :
Identifiants à vocation globale ORCID ISNI VIAF Identifiants à vocation régionale DNB (All.) BnF XYZ DAI (NL) Preprints, postprints Sudoc Cours en ligne theses.fr IdRef Édition électronique Calames CRIS Identifiants à vocation locale ABC ID école ID Univ. ID Labo
SudocAD Automatiser le lien aux autorités IdRef
Projet SudocAD • Projet de recherche 2010-2011 • Avec des chercheurs du LIRMM (Montpellier 2) : • informatique > intelligence artificielle > représentation de la connaissance • Soutien financier d’ADONIS (CNRS) • Objectif : automatiser le lien aux autorités Sudoc • Corpus de test : articles de Persée • Approche : web sémantique (raisonnement)
Date Langue Domaine article • On extrait de la notice d’article quelques informations pour constituer une sorte d’autorité Persée. • Il s’agit ensuite de trouver l’autorité IdRef qui lui ressemble le plus. revue Nom de l’auteur « Autorité» Persée
Beaucoup d’appelés • Rechercher « Christian Schmidt » • Minimiser le risque de passer à côté : • nomComplet_a:schmidt,christian • nomComplet_a:schmidt,c. • nomComplet_a:schmidt,c • nomComplet_a:schmidt,christian* • nom_a:schmidt AND prenom_a:c • etc. 39 candidats
Date Pour en savoir plus sur chacune des 39 autorités candidates,on puise dans les notices bibliographiquesliées Puis on compare cette autorité enrichie à l’autorité Persée Langue Domaine Sujets Rameau Domaine Nom Domaine Sujets Rameau Domaine Date Langue
Peu d’élus Chaque autorité candidate est classée dans une des 7 catégories
Dans quels cas générer automatiquement un lien à une des autorités candidates ? • Différents algorithmes possibles • Notre algorithme préféré : 14G2 : liage automatique si un seul candidat dans la catégorie de liage la meilleure parmi Strong et Medium
Evaluation de l’algorithme 14G2 • 77% de bonnes décisions • 58% : décision juste de créer un lien • 19% : décision juste de ne pas créer de lien • Mauvaises décisions : • 20 % : décision incorrecte de ne pas créer de lien • 1,9% : décision incorrecte de créer un lien • 73% des liens à créer sont créés • 4% des liens créés sont mauvais • Apparemment, pas plus que chez les humains !
Comparaison avec le programme actuel de liage automatique dans le Sudoc * Chiffres à confirmer
Enseignements de SudocAD • Résultats très encourageants • Double Exploitation possible : • Liage automatique • Aide à la décision • Marges de progression identifiées : • Amélioration de la comparaison des domaines • Amélioration de la comparaison des noms • Exploitation d’autres propriétés comme : • Indexation matière • Co-auteurs • Rôles • Les erreurs de lien présentes Sudoc font errer SudocAD Rapport final : http://www.abes.fr/Sudoc/Projets-en-cours/SudocAD
La suite • Continuer les expérimentations avec les programmes de SudocAD • Nouveaux corpus : HAL, licences nationales • Pas d’utilisation en production tout de suite • Aller plus loin dans le cadre d’un nouveau projet de recherche : Qualinca • Projet ANR (2012-2015) • Avec des labos d’informatique (LIRMM, LIG, LRI) et l’INA • Sur la qualité des liens dans un catalogue et dans le contexte du web de données • Mesurer la qualité des liens actuels • Générer de nouveaux liens