1 / 33

Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation

Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas. Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation Département Traitement du document. http://pelleas.univ-mlv.fr. Introduction (1).

daxia
Download Presentation

Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation Département Traitement du document

  2. http://pelleas.univ-mlv.fr

  3. Introduction (1) • Un objectif: la bibliothèque numérique de l'UMLV, du Polytechnicum et de l'URCA • Documents variés (thèses, mémoires, rapports, articles, collections d'images, cours...) • Mise en valeur de la production scientifique grâce à Internet • Exploitation des nouvelles possibilités documentaires

  4. Introduction (2) • Un choix technique principal: le XML • Avantages pour la publication (multisupport, gestion fine des contenus (droits), réorganisation possible des parties constituantes, allégements des coûts de production des métadonnées) • Avantages pour la recherche documentaire (recherche affinée dans un corpus, modes de lecture et d'écriture nouveaux) • Avantages pour l'interopérabilité et la préservation.

  5. Introduction (3) • Une contrainte principale: convertir... • ... les documents • ... les auteurs (On ne fera qu'apercevoir ce second aspect des choses, qui n'est pas le plus simple.)

  6. Plan • La conversion des documents vers XML: • Moyens • Limites • Horizon • La conversion des usagers (en quelques mots) • Une période transitoire à franchir

  7. La conversion des documents vers XML • Moyens • Limites • Horizon

  8. Comment produire du XML? • Avec WordPad?

  9. Comment produire du XML? (2) • Les éditeurs XML • Exploitent toute la richesse du XML • Valident le résultat • Jouent la feuille de style • Mais chers, et formation des usagers impossible.

  10. Comment produire du XML? (3) • Les outils bureautiques ordinaires • Word • LaTeX (on n'en parlera plus ici – conversion pas encore réalisée, travail en cours.)

  11. Word et le XML • Word ne produit pas de document structuré • Mais il permet d'appliquer des “styles” sur des éléments structurels (titres, paragraphes, citations, légendes...) • Une partie de la mise en forme, également structurante, est aussi plus ou moins facile à récupérer (gras, italiques, par exemple). • Une grande part de la mise en forme n’est pas récupérée (polices, alignements…)

  12. La feuille de style (1) • Fichier .dot, contenant: • La carcasse d'un document (mise en forme) • Une série de “styles”, correspondant à des unités structurelles de la DTD cible (TEI Lite, par ex.). Pour les thèses, liste de styles établie en concertation au niveau national (facilite la coopération). • Une “barre de stylage” (macro Word), qui améliore l'ergonomie.

  13. La feuille de style (3) • Avantage pour les auteurs • Aide à la structuration des documents longs • Aide à la saisie (page de titre, bibliographie) • Aide pour la cohérence graphique • Avantage pour le traitement • Marquage des grandes unités structurelles • Le nom du style est la seule chose importante de ce point de vue.

  14. La feuille de style (4) • Inconvénients • Pas de verrouillage possible (risque de corruption) • Pas de validation possible (Titre 1 suivi d'un titre 3) • Ne limite pas l'usage des fonctions de Word dont le résultat n'est pas convertible pour le moment (ex: certains objets, éventuellement produits par des logiciels externes (Excel, PowerPoint, Visio, MathType...); tableaux très complexes, etc.)

  15. Le stylage • Court à présenter: • Un agent corrige le document pour le rendre conforme aux exigences de la chaîne de conversion. • ... parfois long à réaliser.

  16. Le stylage (2) • Quelques chiffres • Lyon 2: une thèse, une journée • UMLV: • 1 mémoire simple, partiellement stylé, par un styleur débutant: 6 heures • 1 mémoire très simple, partiellement stylé, par un styleur un peu plus aguerri: 3 heures • 1 thèse de 500 pages très simple, sans images, non stylée mais très régulière: 10 heures en travaillant à vitesse maximale • 1 thèse non stylée, avec des aberrations structurelles, contenant 300 équations produites avec MathType: ?????

  17. La conversion • Un bon outil en fin de course: Cyberthèses première version • Scripts OmniMark • Conversion à partir de .rtf • Fidèle mais rigide: aucune erreur de stylage tolérée, extraction préalable des images • Conversion vers SGML • Réalisation: Presses de l’Université de Montréal, Cellule ERAD de l’Université de Lyon 2.

  18. La conversion (2) • Un bon outil en cours de débogage: Cyberthèses deuxième version • Conversion .doc / .rtf vers XML grâce à OpenOffice • Transformation du XML OpenOffice vers TEI Lite par XSLT • Conversion du XML/TEI vers HTML et PDF

  19. La conversion Cyberthèses deuxième version: • Réalisation: AJLSM (Martin Sévigny), maître d'oeuvre Université de Lyon 2 / Cyberthèses • Originalité: mise sur le développement coopératif, en utilisant les méthodes du logiciel libre. Site coopératif: http://sourcesup.cru.fr/cybertheses/ (listes de diffusion)

  20. L'intégration dans Pelleas • Production des métadonnées: à assez court terme, vers une quasi automatisation • Un choix important dans Pelleas: séparation entre plateforme Pelleas et le SIGB. Recherche conjointe par Z 39.50 • Passage du traitement du document centré sur sa description à un traitement centré sur sa structuration et sa gestion (droits, migrations).

  21. L'intégration dans Pelleas • Un apport théorique: le fichier PEL • Enveloppe structurelle de l'ensemble des constituants du document. • Objectif: gestion informatique des objets composant le document (migrations, exportations... Contient les métadonnées nécessaires, décrit la structure de l'ensemble); gestion des droits des objets composant le document.

  22. L'intégration dans Pelleas • Chargement des différents fichiers (-XML, -MET, -PEL, images). Validation, exécution de la feuille de style XSLT... • Et voilà:

  23. Limites • Poids du stylage • Multiples possibilités de Word, et imagination informatique sans limites des auteurs • Limites du XML pour certains documents très graphiques (du moins avec les grandes DTD documentaires actuelles): séparation fond / forme pas toujours acceptable. • Le document doit être pensé dès le début pour son support de publication.

  24. Horizon • Amélioration des outils de conversion • Multiplication des initiatives du même genre, laissant attendre de rapides progrès. • Logiciels validants mais conviviaux? • Formation des usagers

  25. II. La conversion des usagers: un chantier essentiel • Culture bureautique très inégale • Formation à la feuille de style, mais aussi formation de base à garantir • Culture de l'imprimé vs culture du document structuré • La structuration n’est pas la présentation • Méconnaissance des questions de droits d'auteur

  26. Instructions aux auteurs • Un chantier important (qui serait mutualisable): les instructions aux auteurs, pour obtenir des documents conçus en fonction de la publication et de la diffusion électroniques

  27. Comment passer la période transitoire? • L’objectif du XML peut être considéré comme évident. • Avantages de s'engager tôt dans la production de documents structurés: • S'engager tôt parce que la formation des auteurs, des équipes, et des décideurs, est un travail de longue haleine • Un exemple du bénéfice d'avoir choisi tôt: les thèses. Implication précoce de quelques établissements, d'où orientation nationale, crédits, développement d'outils, expérience croissante, etc.

  28. Comment passer la période transitoire? (2) • Mais le présent et le futur proche ne sont pas toujours faciles à gérer. Dans l'immédiat, la conversion de certains documents est impossible ou coûteuse. • Plutôt que de renoncer aux avantages évidents du XML, solution mixte (PDF + XML par exemple)? • Un choix non sans défauts, mais difficilement évitable selon moi, à moins de ne pas publier du tout certains documents tant que des problèmes techniques demeurent.

  29. Merci.

More Related