280 likes | 377 Views
Introduction à la structuration des documents: les applications. M2: Gestion des connaissances. Plan. De l’utilité à structurer les documents Les archives ouvertes. De l’utilité à structurer les documents: les pages web. Tout document numérique est structuré Exemple: les pages web
E N D
Introduction à la structuration des documents: les applications M2: Gestion des connaissances
Plan • De l’utilité à structurer les documents • Les archives ouvertes
De l’utilité à structurer les documents: les pages web • Tout document numérique est structuré • Exemple: les pages web • Code source d’une page web réelle (site du GRESEC)
De l’utilité à structurer les documents: les pages web • <html> <head> <title>Site officiel du laboratoire GRESEC </title> </head> <body> <a href="http://gresec.u-grenoble3.fr/"> Bienvenue au Gresec </a> <p> Exemple de page HTML simple </p> </body> • </html>
Exemple d’application Calcul du PageRank
Indices utilisés • Mots-clés des liens • <a href=...> mot-clé pertinent...</a> • Noms et attributs « alt » des images • <img src="accueil.gif" alt="Accueil"> • Se prémunir contre les spam… • <a href="avis.htm" rel="nofollow"> Vous pouvez poster ici vos avis…</a> … etc.
<?xml version="1.0" ?> <rss version="2.0"> • <channel> • <title>Le Point – Société </title> • <link> http://www.lepoint.fr/societe/rss.xml </link> • <description>Fil RSS de la page Société du journal Le Point </description> • <image> <url>http:///www.lepoint.fr/logo-lepoint.gif </url> <link>http:///www.lepoint.fr </link> </image> • <item> • <title> Affaire Neyret - L'homme arrêté à Cannes avait un casier vierge malgré une condamnation </title> <description> Stéphane Alzraa, écroué vendredi à Grasse, dans les Alpes- Maritimes, dans le... </description> • <pubDate>Mon, 03 Oct 2011 15:14:00 +0200</pubDate> • <link>http://www.lepoint.fr/societe/l-homme-arrete-a-cannes-03-10-2011- 1379779_23.php</link> </item> <item> • <title>Le procès en appel de Jérôme Kerviel aura lieu en juin</title> <description> Jérôme Kerviel, lourdement condamné en 2010 pour une perte record à la… </description> • <pubDate>Mon, 03 Oct 2011 15:14:00 +0200</pubDate> <link>http://www.lepoint.fr/societe/le-proces-en-appel-de-jerome-kerviel-aura- lieu-en-juin-03-10-2011-1380253_23.php</link> <enclosure url=http://www.lepoint.fr/images/2011/10/03/par-406300- jpg_268107.JPGlength="24864" type="image/jpeg" /> </imtem>
<item> <title>Michel Neyret mis en examen</title> <description> La garde à vue de Michel Neyret s'est achevée ce matin à 6 heures. Il a été...</description> <pubDate>Mon, 03 Oct 2011 14:53:00 +0200</pubDate> <link>http://www.lepoint.fr/societe/michel-neyret-mis-en-examen-03-10-2011-1379779_23.php</link> <enclosure url="http://www.lepoint.fr/images/2011/10/03/par-406085-jpg_267762.JPG" length="17456" type="image/jpeg" /> </item> </channel> </rss>
Les Archives ouvertes • Historique et objectifs • Fonctionnement • Applications • Bibliothèques • Communautés scientifiques • Exemples à explorer
Historique et objectifs • L'OAI-PMH • Open Archives Initiative’s Protocol for Metadata Harvesting • Protocole de moissonnage OAI • Archive • « classique » • E-prints • ICI: réservoir, lieu ressource
Historique et objectifs • Ouverte: • « gratuit » • « libre » (architecture technique) • ICI: libre et parfois gratuit
Qu’est-ce que c’est? Historique: • Années 90: bases pre-print, post-print • Standards inter opérables • Convention de Santa Fé 1999 • Fédérer les initiatives • Développer les échanges • Mise en place du protocole OAI-PMH
Historique et objectifs Caractéristiques: • Dépasser les barrières du « web invisible » • Interopérabilité des ressources • Mise à jour simplifiée • Encourager l’adoption des standards Dublin Core • Intégrer des ressources de types et d’origines diverses
Comment ça marche? Facilitation des échanges entre: • Fournisseurs de données • Fournisseurs de services Avantages • Réservoirs d’enregistrements • Sans déplacer ou dupliquer les documents Exemple: bibliothèque • Visibilité du fonds propre • Portail documentaire spécialisé • Partenariats: catalogues collectifs, etc.
Fonctionnement Concepts de base: • Ressource • Item • Enregistrement • Lot
Fonctionnement Éléments essentiels • Entrepôt • Moissonneur • Agrégateur
Fonctionnement • Protocole: • Soumission des requêtes en HTTP • Identify • ListMetadataformats • ListSets • ListIdentifiers • GetRecord • ListRecords • Réponses en XML (métadonnées)
Applications • Bibliothèque: • Entrépôt: • Valorisation du fonds électronique • Moissoneur: • Portail spécialisé, catalogue collectif, etc. Outils libres: http://www.openarchives.org/tools/tools.html
Applications • Services: • Agrégateurs encyclopédiques: OAIster (Univ.Michigan) • Grands répertoires thématiques: • Michael (fonds européen culturel numérique) • PictureAustralia (patrimoine pictural et photo) • BNSA (banque numérique du savoir d’Aquitaine) • France-Généalogie
Exemples Les OAI scientifiques: • car tout commence là… Exemples: • ArXiv X: http://arxiv.org/ • Physique, mathématiques, etc. • P.Ginsparg (Los Alamos, puis Univ.Cornell) • MathDoc: http://portail.mathdoc.fr/ • Mathématiques, UJF Liste plus complète sur: http://www.openarchives.org/Register/BrowseSites
Exemples Mise en valeur du fonds propre • Partie OAI du projet GALLICA • http://bibnum.bnf.fr/oai/ • Projet American Memory, (Bibliothèque nationale du Congrès) • http://memory.loc.gov/ammem/oamh/
Exemples Agrégation de fonds thématiques – type portail : • Projet européen Michael • http://www.michael-culture.org/fr/home • Picture Australia • http://www.pictureaustralia.org/ • Et…sur Grenoble, Aladin: • https://dspace.msh-alpes.prd.fr/index.jsp
Exemples Agrégation de fonds type catalogue • OAIster: • http://oaister.umdl.umich.edu/o/oaister/viewcolls.html • ArXiv: • http://arxiv.org/