380 likes | 458 Views
Journée de l’AUSIDEF – Lyon, 10-11 juin 2010. RDF et le Web de données. * Philippe.Bourdenet@univ-lemans.fr. En guise de préambule…. Problèmes d’intégration des outils de référencement dans les systèmes d’information ou systèmes d’ingénierie documentaire. Catalogue collectif.
E N D
Journée de l’AUSIDEF – Lyon, 10-11 juin 2010 RDF et le Web de données * Philippe.Bourdenet@univ-lemans.fr
Problèmes d’intégration des outils de référencement dans les systèmes d’information ou systèmes d’ingénierie documentaire Catalogue collectif Périodiques en ligne Catalogues de bibliothèques associées ou partenaires Catalogue local Enregistrements sonores e-books Archives ouvertes Ressources multimédias Bases de signets Ressources pédagogiques Thèses en ligne
Un point d’entré unique ? iso 2709 Catalogue local Ressources multimédias Bases de signets Catalogue collectif oai-pmh Bibliothèques / agences bibliographiques nationales Z 39.50 Périodiques en ligne OpenURL SRU e-books API Ok v Catalogue de la bibliothèque Catalogues de bibliothèques associées ou partenaires Ressources pédagogiques Z 39.50 v Documentation scientifique et technique v Supports pédagogiques v Documents multimédias v Revues Archives ouvertes v Enregistrements sonores e-books oai-pmh WebService Thèses en ligne Vidéos
Web invisible(« deep web, hidden web ») • Le Web invisible ou Web caché est la partie du Web correspondant à l'ensemble des documents qui ne sont pas indexés par les outils de recherche traditionnels. • « Les ressources du Web invisible comprennent, entre autres • les sites Web construits autour d'une base de données (interrogeable uniquement par un moteur de recherche interne) • les pages accessibles par un formulaire de recherche • les pages protégées par un mot de passe • les pages interdites aux robots d'indexation • les pages écrites dans des formats propriétaires • les intranets et • les extranets. » [AFUL] Les données sont contrôlées par des applications, et chaque application les garde pour son propre usage… Pour accéder à ces données, un utilisateur doit passer par un portail ou un moteur de recherche dédié qui créée un chemin vers le données prisonnières d’une base de données.
iso 2709 Catalogue local Ressources multimédias Bases de signets Catalogue collectif oai-pmh Bibliothèques / agences bibliographiques nationales Z 39.50 Périodiques en ligne OpenURL SRU e-books API Ok v Catalogue de la bibliothèque Catalogues de bibliothèques associées ou partenaires Ressources pédagogiques Z 39.50 v Documentation scientifique et technique v Supports pédagogiques v Documents multimédias v Revues Archives ouvertes v Enregistrements sonores e-books oai-pmh WebService Thèses en ligne Vidéos
Je veux restreindre un corpus de résultats aux ouvrages de sciences édités en 2008 et 2009 SQL > select base1.UNIMARC.UNIMARC12,base1.UNIMARC.UNIQUE_KEY from base1.UNIMARC,system.EXEMPLAIRE where substr(system.EXEMPLAIRE.CATALOG_ID,17,10) = to_char(base1.UNIMARC.UNIQUE_KEY) and system.EXEMPLAIRE.SECTION='1' and system.EXEMPLAIRE.STATUS in (1,2,3,5,6,100,101,110,210) and base1.UNIMARC.UNIMARC12 in ('2008', '2009');
Il y a 10 ans, l’enjeu était de promouvoir son catalogue sur le web (« opacweb »). On consacre aujourd’hui encore beaucoup de temps à l’administration d’un SIGB ou d’un SID On travaille à rendre son application interopérable, capable d’aller puiser des informations dans des sources hétérogènes, et capable de fournir des informations à d’autres applications. Demain on travaillera peut-être à rendre nos données compatibles avec le web sémantique web Agences bibliographiques moteurs commerciaux Réseaux sociaux opac web opac web réseau interne BDD BDD
shibboleth ENT SRU OpenURL SID OAI-PMH Z3950 SIGB
http <html> <html> WEB de documents
Problème :Le contenu du web est fait pour être lu par des humains, pas par des ordinateurs. Problème? : avec l’accroissement du nombre de pages web, les recherches deviennent de moins en moins efficaces. on arrive aujourd’hui à la limite de l’efficacité des metatags. (crawlés par moteurs de recherche). Une éventuelle solution ? Consisterait rendre ces contenus compréhensibles par des machines, que les machines puissent identifier leur nature sans ambiguïté. >> d’une certaine façon, donner du sens au contenu (d’où « sémantique »). Mise en œuvre : il faut mettre à disposition un langage pour décrire des ressources de façon intelligibles (RDF) qui va permettre de définir des structures. RDF est plus mode de stockage des définitions, un modèle, donc Une remarque :il faut distinguer cette entreprise de l’IA qui centralise les données dans une base de données, alors qu’avec RDF, elles peuvent être n’importe où, sans qu’on ait besoin de les stocker : chaque élément RDF peut être appelé par un URI. Pour éviter que les « agents » ou programmes rencontrent des situations ambiguës, (homonymies ou synonymies), il faut introduire des ontologies, qui reposent sur des classes (OWL) Des promesses : les applications reposant sur ces structures de données vont pouvoir traiter et manipuler des données sans les humains Des projets ? Pour l’instant le web sémantique est mis en application dans le domaine du commerce électronique, mais cela peut s’étendre d’autres types de données (les bibliothèques, peut-être ?) et d’autres biens de consommation (domotique par exemple). Du boulot : il faut que les documents soient décrits comme l’attend le web sémantique…
web « traditionnel » vs web sémantique « espace universel d’échange consultable par tout internaute » objectif : apporter la sémantique formelle nécessaire pour que les machines, elles aussi, puissent consulter et interpréter les informations présentes sur le web s’appuie sur 3 couches de base XML : support ou cadre d’implémentation RDF : cadre de description des ressources, modèle d’annotation sous forme d’URI OWL : moyen d’écrire des ontologies sur le web « ensemble structuré de savoirs dans un domaine de connaissance particulier »
Web… sémantique ? σῆμα Gère des documents Gère des « objets » personnes .htm, .html endroits .pdf événements concerts .xml musique .mp3 films organisations… .???
événement l’évenement <anniversaire> ou <fête d’anniversaire> comporte des propriétés qui peuvent être supportées par des web services : <date>, <heure>, <lieu>, <déplacement> Ces propriétés ou « sèmes » sont reliées entre elles. on pourrait ajouter <offrir un cadeau> et proposer un <achat de cadeau>, suivi d’une <livraison> la <livraison> aurait elle-même comme propriété obligatoire : <expéditeur>, <destinataire>, <coût>, <adresse>, etc.
Quelques mots-clés pour indexer cette journée… RDF* OWL* FOAF RDFS* SKOS XML FRBR FRAD FRBRoo SPARQL* RDA * NB la plupart des documentions importantes de W3C ont été traduites en français !
RDF : Resource description Framework = Cadre de description des ressources « Modalité d’annotation d’une ressource (sous forme d’URI) sur la base d’un vocabulaire partagé. » La syntaxe de base s’exprime sous forme d’un triplet property literal resource On parle aussi de représentation par « graphe »
est_auteur_de Blaise Cendrars Rhum Expression du triplet dans un fichier RDF : NAME SPACE <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns# " xmlns:s="http://monsite.fr/schema.rdf#"> <rdf:Description about=”Rhum”> <s:Creator>Blaise Cendrars</s:Creator> </rdf:Description> </rdf:RDF> obligatoire A propos de Rhum, il y a un auteur : Blaise Cendrars On a utilisé l’attribut rdf:about. Il existe d’autres attributs : rdf:ID, rdf:type, rdf;bag, rdf:seq, rdf:alt On a introduit la relation s:creator, mais elle peut être subdivisée n sous-classes ; interprète, compositeur, préfacier, etc.
Son outil de recherche : SPARQL Les requêtes SPARQL s’inspirent de SQL (modèle simple). On peut ajouter une clause DISTINCT après SELECT ou LIMIT, OFFSET, et ORDER après WHERE des clauses : OPTIONAL UNION FILTER Ex: rapatrier le nom d’une personne et éventuellement son pict Ex. Trouver les personnes qui ont un e-mail et celles qui ont un pict Impose des contraintes sur les variables (Ex. on veut trouver toutes les auteurs des publications du mois de septembre 2009) Dans la documentation SPARQL, il est fait mention d’une autre syntaxe un peu différente : Turtle (pour « Terse RDF Triple Language) Soit l’ensemble de données : @prefix dc: <http://purl.org/dc/elements/1.1/> . @prefix : <http://example.org/book/> . @prefix ns: <http://example.org/ns#> . :book1 dc:title "SPARQL Tutorial" . :book1 ns:price 42 . :book2 dc:title "The Semantic Web" . :book2 ns:price 23 . Soit la requête : PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX ns: <http://example.org/ns#> SELECT ?title ?price FROM <ex1.ttl> WHERE { ?x dc:title ?title . OPTIONAL { ?x ns:price ?price . FILTER (?price < 30) } } Résultat : | title | price | ============================== | "The Semantic Web" | 23 | | "SPARQL Tutorial" | | ------------------------------
RDF-S (RDF-Schema) Permet de définir un modèle ou schéma dans un domaine d’expertise : - définition de hiérarchies de classes et de propriétés - formulation de contraintes. Comment déclarer une classe de ressource : 2 moyens 1. utiliser l’attribut rdf:type en se référant au type Class <rdf:Description rdf:about="#Artist"> <rdf:type> <rdf:Description rdf:about="http://www.w3.org/2000/01/rdfschema# Class"/> </rdf:type> </rdf:Description> 2. utiliser l’espace de nom rdfs à l’aide d’une déclaration xmlns:rdfs=http://www.w3.org/2000/01/rdf-schema# <rdfs:Class rdf:ID="Artist"> </rdfs:Class> Dans un éditeur de graphe, la fonction AddSubclassOf permet d’ajouter une sous-classe #Painter à la Classe #Artist #Artist #Painter
Pourquoi passer de RDF-S à OWL ? RDF-S apparaît vite comme insuffisant, en empruntant des éléments de la logique formelle : rdfs:range définit le domaine de valeurs d’une propriété quelle que soit la classe concernée Ex. ne permet pas d’exprimer que les vaches ne mangent que de l’herbe, alors que d’autres sortes d’animaux mangent aussi de la viande Pas de possibilité d’exprimer que deux classes sont disjointes Ex. La classe des hommes et des femmes sont disjointes Ne permet pas de créer des classes par combinaison ensembliste d’autres classes (inter, union, complément) Ex. Si l’on veut construire la classe Personne comme l’union disjointe des classes Hommes et Femmes Ne permet pas de définir de restriction sur le nombre d’occurrences de valeurs que peut prendre une propriété. Ex. On ne peut pas dire qu’une personne a exactement deux parents ne permet pas de définir certaines caractéristiques des propriétés: transitivité (ex: estPlusGrand-Que), unicité (ex: estLePèreDe), inverse (ex: mange est la propriété inverse de estMangéPar). [Paul] – a_pour_sœur [Virginie] Si les contraintes d’expressivité sont trop grandes, il faut passer à des définitions ontologiques « déportées », extérieures au schéma, qui vont uniquement gérer la complexité des relations logiques entre classes, d’où OWL
pays (OWL) région département ville code postal mairie site internet
pays région département ville code postal mairie adresse téléphone site internet URL
Il faut absolument veiller à conserver les fonctionnalités de recherche (!), (Ce qui donne du sens au travail des bibliothécaires et de la valeur aux SID.) mais elles peuvent émerger/s’exprimer différemment. Elles peuvent peut-être s’affiner, mais pas disparaître. Contrat des FRBR : Un catalogue doit permettre de « trouver, identifier, sélectionner et obtenir » une ressource (B. Tillet) « Je cherche les Variations Goldberg de J.-S. Bach …» Mais « J’aimerais bien écouter les Variations Goldberg, interprétées par Daniel Barenboim, en concert à Buenos Aires en 1989 . Je crois que ça existe chez Erato » Rendre les applications interopérables : on sait faire (à peu près…) Rendre les données portables dans d’autres contextes, pour d’autres usages et utilisables par d’autres médias : on ne sait pas (encore) faire (pas pour tout en tout cas).
[A propos du web sémantique] “Parmi les changements que les bibliothèques vont avoir besoin de mettre en oeuvre pour y pourvoir doit figurer la migration du catalogue public d’une base de données de notices bibliographiques, autonome et isolée, vers un ensemble de données “hyperliées” qui peut interagir avec les ressources informationnelles du web. On pourra alors intégrer les données documentaires aux environnements numériques de travail des utilisateurs, auxquels les bibliothèques apporteront leur service.” ALA’s Library Technology Reports is publishing Understanding the Semantic Web: Bibliographic Data and Metadata by Karen Coyle
programme document droits d’accès examen heures d’ouverture situation diplôme préparé droits de prêt localisation
programme document droits d’accès examen heures d’ouverture situation diplôme préparé droits de prêt localisation
programme document droits d’accès examen heures d’ouverture situation diplôme préparé droits de prêt localisation
manifestation œuvre niveau bibliographique titre éditeur auteur mots-clés programme document niveau « événement » droits d’accès
La conclusion approche… …ou : « pourquoi s’inquiéter ? » …et : « pour quoi s’inquiéter ? »
001 070305692 010 ##$a1-59059-003-1$bbr. 073 #0$a9781590590034 200 1#$a@XML programming$bTexteimprimé$eWeb applications and Web services with JSP and ASP$fAlexanderNakhimovsky, Tom Myers 210 ##$aBerkeley, Calif.$cApress$dcop. 2002 215 ##$a1 vol. (XVIII-555 p.)$cill., couv. ill. en coul.$d24 cm 225 0#$aThe @expert's voice$ebooks for professionals by professionals 300 ##$aLacouv. porte en plus : "Learn practical and up-to-date information on XML specifications and related technologies, including XLink, XPointer, XML Schema, RELAX NG, SOAP, WSDL, UDDI; "Find substantial examples in Java and VB/VB Script that are written to be understandable by any programmer, whatever his or her language background"; "Create Web applications and Web services that use DOM, SAX, and XSLT to process XML data, both virtual (generated in memory) and persistent (stored in files or databases) 320 ##$aIndex 410 ##$0069269572@Books for professionals by professionals 605 ##$a@Active server pages$2lc 606 ##$aXML (Document markup language)$2lc 606 ##$aMicrosoft Visual BASIC$2lc 606 ##$aJavaServer pages$2lc 606 ##$aWeb sites$xDesign$2lc 606 ##$aWeb site development$2lc 606 ##$aJava (Computer program language)$2lc 606 ##$3035260521XML (langage de balisage)$2rameau 606 ##$3052625877JavaServer pages (logiciel)$2rameau 606 ##$3035805684Sites Web -- Développement$2rameau 606 ##$3050768735Fournisseurs de services applicatifs$2rameau 680 ##$aQA76.76.H94$bN355x 2002 700 #1$3059632887Nakhimovsky, Alexander D.$4070 701 #1$3059632585Myers, Thomas J. (1952-....)$4070 801 #0 $bPPT$gAACR2 801 #1 $bPPT$gAACR2
001 070305692 010 ##$a1-59059-003-1$bbr. 073 #0$a9781590590034 200 1#$a@XML programming$bTexteimprimé$eWeb applications and Web services with JSP and ASP$fAlexanderNakhimovsky, Tom Myers 210 ##$aBerkeley, Calif.$cApress$dcop. 2002 215 ##$a1 vol. (XVIII-555 p.)$cill., couv. ill. en coul.$d24 cm 225 0#$aThe @expert's voice$ebooks for professionals by professionals 300 ##$aLacouv. porte en plus : "Learn practical and up-to-date information on XML specifications and related technologies, including XLink, XPointer, XML Schema, RELAX NG, SOAP, WSDL, UDDI; "Find substantial examples in Java and VB/VB Script that are written to be understandable by any programmer, whatever his or her language background"; "Create Web applications and Web services that use DOM, SAX, and XSLT to process XML data, both virtual (generated in memory) and persistent (stored in files or databases) 320 ##$aIndex 410 ##$0069269572@Books for professionals by professionals 605 ##$a@Active server pages$2lc 606 ##$aXML (Document markup language)$2lc 606 ##$aMicrosoft Visual BASIC$2lc 606 ##$aJavaServer pages$2lc 606 ##$aWeb sites$xDesign$2lc 606 ##$aWeb site development$2lc 606 ##$aJava (Computer program language)$2lc 606 ##$3035260521XML (langage de balisage)$2rameau 606 ##$3052625877JavaServer pages (logiciel)$2rameau 606 ##$3035805684Sites Web -- Développement$2rameau 606 ##$3050768735Fournisseurs de services applicatifs$2rameau 680 ##$aQA76.76.H94$bN355x 2002 700 #1$3059632887Nakhimovsky, Alexander D.$4070 701 #1$3059632585Myers, Thomas J. (1952-....)$4070 801 #0 $bPPT$gAACR2 801 #1 $bPPT$gAACR2
id= 070305692 oeuvre a_pour_auteur a_pour_auteur .Titre=« XML Programming » id=3059632585 id=3059632887 Personne Personne .Nom= Tom Myers .Nom= Alexander Nakhimovsky a_pour_éditeur a_pour_sujet id= 127261852 édition appartient_à id=3035260521 id= 0069269572 a_pour_langue vedette rameau Collection .Forme retenue= XML (langage de balisage) .Titre=« Books for profesionnals » id= 69850 Langue .Libellé=« English » adapté de Yann Nicolas
On peut présumer que le formalisme introduit par RDF et OWL permet de mieux structurer les données pour les présenter sur le web. MAIS : produire des données sous forme de graphe n’est pas dans les habitudes. Pour les bibliothécaires, Il faudra passer d’une représentation syntagmatique / paradigmatique à une représentation atomique Les outils pour produire ces données sont demandent à être améliorés (bien qu’offrant déjà de grandes possibilités : http://protege.stanford.edu/) Cela ne se fera qu’au prix de «changements assez importants dans la gestion des flux informationnels ». Cela se produira sans doute par étapes, par exemple en commençant par l’introduction de microformats (« ensembles de conventions permettant d’ajouter des notions sémantiques aux documents html » sans recourir à de nouveaux langages. Cela ne se fera pas sans une observation stricte des normes et des formats ! c’est nous ! Pas de web sémantique sans saisie des données… c’est nous aussi ! …ni avec un minimum de contrôle des données.
Journée de l’AUSIDEF – Lyon, 10-11 juin 2010 Merci de votre attention ! * Philippe.Bourdenet@univ-lemans.fr