320 likes | 418 Views
Média Centre-Ouest 13 novembre et 6 décembre 2012 Emilie Liard / Véronique Lacan Support élaboré à partir des travaux du groupe national de formateurs RDA. Comprendre et s'approprier les évolutions du catalogage en bibliothèque Journée d’information. III. Participer au Web de données.
E N D
Média Centre-Ouest 13 novembre et 6 décembre 2012 Emilie Liard / Véronique Lacan Support élaboré à partir des travaux du groupe national de formateurs RDA Comprendre et s'approprier les évolutions du catalogage en bibliothèqueJournée d’information
III. Participer au Web de données … en utilisant les technologies du Web sémantique
Le Web de données ? Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement (Définition de Tim Berners-Lee dès 1999) Objectif: Mettre à disposition des données en utilisant des techniques standardisées qui garantissent l’interopérabilité Disposer de données utilisables dans des contextes et avec des systèmes différents sans restriction de conditions d’accès ou de mise en œuvre
Architecture du Web (1) World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes) Architecture du Web: infrastructure technologique définie par des standards Standardisation de l’architecture du Web assurée par un organisme, le W3C W3C = World Wide Web Consortium
Architecture du Web (2) Repose sur 3 technologies : Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language) Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur Des identifiants : URI (Uniform Resource Identifier) Chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)
Évolutions du web Web 1.0 web de documents permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertexte une page = un document format : HTML (HyperTextMarkup Language) ne permet que la mise en forme Web 2.0 web collaboratif Web 3.0 web de données / web sémantique permet aux machines de trouver et d’exploiter les données contenues dans les documents format : RDF (Resource Description Framework)
Limites du Web de documents Les données sont cachées sous les pages HTML (Web profond) Seules les pages HTML sont liées entre elles Les pages HTML sont faites pour les humains Ce que veulent les machines, ce sont des données des données liées car elles se complètent les unes les autres car les liens permettent de naviguer et de découvrir avec des liens qualifiés, signifiants au-delà du « voir aussi » des hyperliens
Le Web de données Extension du Web permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes, et de les rendre exploitables par des machines Repose sur les mêmes technologies de base HTTP : transfert des données URI : nommage des ressources Utilisation d’un autre langage il ne s’agit plus d’échanger des documents destinés à être immédiatement visualisés, mais des données structurées RDF = langage du Web de données liées
RDF RDF = Resource Description Framework Nouveau modèle généraliste et standardisé pour encoder, échanger et réutiliser des métadonnées structurées Proposé en 1999 par le W3C Permet de décrire simplement des ressources : document, personne, objet, évènement Objectif : partager les métadonnées pour des ressources identiques par l’utilisation d’une syntaxe commune
RDF : un modèle conceptuel Principe de base toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément déclaration RDF composée de 3 éléments = triplet, représenté sous forme de graphe Exemple : Honoré de Balzac a écrit "La Comédie humaine" Sujet : Honoré de Balzac Ressource Verbe : a écrit Prédicat Complément : La Comédie humaine Objet
RDF : Graphe La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien
RDF : modèle de graphe L’objet d’un triplet est Soit une chaîne de caractères (« littéral ») Soit une ressource qui peut être le sujet ou l’objet d’autres déclarations On construit ainsi un modèle de graphe • Sujet : • La Comédie humaine
Formalisme RDF Modèle permettant de représenter un nombre considérable de ressources désignées chacune par une URI Éclatement de l’information Des données et pas des « documents » Plus de souplesse pour manipuler, sélectionner…
RDF : souplesse Cadre conceptuel de description des ressources applicable à n’importe quel domaine Permet de mélanger les vocabulaires Peut être exprimé en utilisant diverses syntaxes
RDF : extensibilité RDF rend les données extensibles Plus besoin de tout dire sur une ressource, une personne, etc. Possibilité d’établir des liens vers d’autres sources (en RDF) pour compléter l’information Recensions, commentaires, etc. Données commerciales, etc. Dictionnaires biographiques, etc.
Un Web de données … Modèle de données : RDF Langage d’interrogation : SPARQL Langage de requête sur les graphes RDF permettant de spécifier le type de données recherchées SPARQL permet d’interroger les données telles qu’on les a modélisées
Un Web de données … Modèle de données : RDF Langage d’interrogation : SPARQL Langage de requête sur les graphes RDF permettant de spécifier le type de données recherchées SPARQL permet d’interroger les données telles qu’on les a modélisées
… et un Web sémantique Schéma (ou ontologie) Document formel expliquant les catégories, leurs relations, avec leur sens, la structure et les contraintes associées Exemples : Foaf pour la description d’un profil utilisateur Dublin Core pour la description (simple) d’une ressource ISBD pour la description bibliographique RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence
Web de données et Web sémantique Web de données :possibilité de relier et d’échanger des données au moyen d’URI Web sémantique : possibilité d’échanger les schémas des données et la sémantique associée Objectif : permettre aux machines de comprendre la sémantique, la signification de l’information sur le Web
Et les bibliothèques? Que peut nous apporter le Web de données ? Relier les catalogues des bibliothèques avec d’autres données existantes Ouverture à d’autres communautés (libraires, éditeurs, …) Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques Plus de visibilité par les moteurs de recherche Tirer parti des données structurées des catalogues et des référentiels Interopérabilité Souplesse pour la réutilisation des données
Comment y arriver ? Des données structurées Des vocabulaires normalisés éléments de métadonnées listes de valeurs Des identifiants pérennes (URI) pour désigner les ressources pour exprimer les relations entre les données Une syntaxe normalisée : RDF RDF = Resource Description Framework
000 cam 22 3 450 001FRBNF42226398000000X003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves • 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm225 $aLes @guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tLes @Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc http://catalogue.bnf.fr/ark:/12148/cb34235813n http://catalogue.bnf.fr/ark:/12148/cb120136648 http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des URI pour exprimer des relations http://metadataregistry.org/about.html
Des URI pour exprimer les relations DC : Title http://purl.org/dc/elements/1.1/title ISBD : has title proper http://iflastandards.info/ns/isbd/elements/P1004 RDA : Title proper http://rdvocab.info/Elements/titleProper DC : Creator http://purl.org/dc/elements/1.1/creator RDA : Author http://rdvocab.info/roles/author
http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.htmlhttp://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.html
Fonds Calames Aujourd’hui Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Exemple Charles Darwin : http://www.idref.fr/026812304http://data.bnf.fr/11898689/charles_darwin/http://viaf.org/viaf/27063124 Auteur VIAF Auteur BnF owl:sameAs Auteur ISNI Auteur Wikipedia Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Fonds Calames Demain Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Auteur VIAF Auteur BnF Auteur ISNI Auteur Wikipedia Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
+ articles, éditions scientifiques, numérisation, etc. Fonds Calames Après-demain peut-être ? Livre Worldcat owl:sameAs Livre Sudoc Auteur IdRef cite Données brutes Thèse theses.fr a pour dérivé owl:sameAs + brevets, projets ANR, etc. Auteur HAL CCSD Auteur VIAF Article HAL CCSD Auteur BnF owl:sameAs + CrossRef, revues, indicateurs d’usage, etc. Auteur ISNI Auteur Wikipedia Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Y aller … avec pertinence Pour utiliser la boîte à outils du Web sémantique, il faut Identifier les données Construire un réseau de relations entre ces données Le modèle FRBR va permettre d’analyser les relations entre les données au sein des catalogues de bibliothèques