330 likes | 477 Views
Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas. Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation Département Traitement du document. http://pelleas.univ-mlv.fr. Introduction (1).
E N D
Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation Département Traitement du document
Introduction (1) • Un objectif: la bibliothèque numérique de l'UMLV, du Polytechnicum et de l'URCA • Documents variés (thèses, mémoires, rapports, articles, collections d'images, cours...) • Mise en valeur de la production scientifique grâce à Internet • Exploitation des nouvelles possibilités documentaires
Introduction (2) • Un choix technique principal: le XML • Avantages pour la publication (multisupport, gestion fine des contenus (droits), réorganisation possible des parties constituantes, allégements des coûts de production des métadonnées) • Avantages pour la recherche documentaire (recherche affinée dans un corpus, modes de lecture et d'écriture nouveaux) • Avantages pour l'interopérabilité et la préservation.
Introduction (3) • Une contrainte principale: convertir... • ... les documents • ... les auteurs (On ne fera qu'apercevoir ce second aspect des choses, qui n'est pas le plus simple.)
Plan • La conversion des documents vers XML: • Moyens • Limites • Horizon • La conversion des usagers (en quelques mots) • Une période transitoire à franchir
La conversion des documents vers XML • Moyens • Limites • Horizon
Comment produire du XML? • Avec WordPad?
Comment produire du XML? (2) • Les éditeurs XML • Exploitent toute la richesse du XML • Valident le résultat • Jouent la feuille de style • Mais chers, et formation des usagers impossible.
Comment produire du XML? (3) • Les outils bureautiques ordinaires • Word • LaTeX (on n'en parlera plus ici – conversion pas encore réalisée, travail en cours.)
Word et le XML • Word ne produit pas de document structuré • Mais il permet d'appliquer des “styles” sur des éléments structurels (titres, paragraphes, citations, légendes...) • Une partie de la mise en forme, également structurante, est aussi plus ou moins facile à récupérer (gras, italiques, par exemple). • Une grande part de la mise en forme n’est pas récupérée (polices, alignements…)
La feuille de style (1) • Fichier .dot, contenant: • La carcasse d'un document (mise en forme) • Une série de “styles”, correspondant à des unités structurelles de la DTD cible (TEI Lite, par ex.). Pour les thèses, liste de styles établie en concertation au niveau national (facilite la coopération). • Une “barre de stylage” (macro Word), qui améliore l'ergonomie.
La feuille de style (3) • Avantage pour les auteurs • Aide à la structuration des documents longs • Aide à la saisie (page de titre, bibliographie) • Aide pour la cohérence graphique • Avantage pour le traitement • Marquage des grandes unités structurelles • Le nom du style est la seule chose importante de ce point de vue.
La feuille de style (4) • Inconvénients • Pas de verrouillage possible (risque de corruption) • Pas de validation possible (Titre 1 suivi d'un titre 3) • Ne limite pas l'usage des fonctions de Word dont le résultat n'est pas convertible pour le moment (ex: certains objets, éventuellement produits par des logiciels externes (Excel, PowerPoint, Visio, MathType...); tableaux très complexes, etc.)
Le stylage • Court à présenter: • Un agent corrige le document pour le rendre conforme aux exigences de la chaîne de conversion. • ... parfois long à réaliser.
Le stylage (2) • Quelques chiffres • Lyon 2: une thèse, une journée • UMLV: • 1 mémoire simple, partiellement stylé, par un styleur débutant: 6 heures • 1 mémoire très simple, partiellement stylé, par un styleur un peu plus aguerri: 3 heures • 1 thèse de 500 pages très simple, sans images, non stylée mais très régulière: 10 heures en travaillant à vitesse maximale • 1 thèse non stylée, avec des aberrations structurelles, contenant 300 équations produites avec MathType: ?????
La conversion • Un bon outil en fin de course: Cyberthèses première version • Scripts OmniMark • Conversion à partir de .rtf • Fidèle mais rigide: aucune erreur de stylage tolérée, extraction préalable des images • Conversion vers SGML • Réalisation: Presses de l’Université de Montréal, Cellule ERAD de l’Université de Lyon 2.
La conversion (2) • Un bon outil en cours de débogage: Cyberthèses deuxième version • Conversion .doc / .rtf vers XML grâce à OpenOffice • Transformation du XML OpenOffice vers TEI Lite par XSLT • Conversion du XML/TEI vers HTML et PDF
La conversion Cyberthèses deuxième version: • Réalisation: AJLSM (Martin Sévigny), maître d'oeuvre Université de Lyon 2 / Cyberthèses • Originalité: mise sur le développement coopératif, en utilisant les méthodes du logiciel libre. Site coopératif: http://sourcesup.cru.fr/cybertheses/ (listes de diffusion)
L'intégration dans Pelleas • Production des métadonnées: à assez court terme, vers une quasi automatisation • Un choix important dans Pelleas: séparation entre plateforme Pelleas et le SIGB. Recherche conjointe par Z 39.50 • Passage du traitement du document centré sur sa description à un traitement centré sur sa structuration et sa gestion (droits, migrations).
L'intégration dans Pelleas • Un apport théorique: le fichier PEL • Enveloppe structurelle de l'ensemble des constituants du document. • Objectif: gestion informatique des objets composant le document (migrations, exportations... Contient les métadonnées nécessaires, décrit la structure de l'ensemble); gestion des droits des objets composant le document.
L'intégration dans Pelleas • Chargement des différents fichiers (-XML, -MET, -PEL, images). Validation, exécution de la feuille de style XSLT... • Et voilà:
Limites • Poids du stylage • Multiples possibilités de Word, et imagination informatique sans limites des auteurs • Limites du XML pour certains documents très graphiques (du moins avec les grandes DTD documentaires actuelles): séparation fond / forme pas toujours acceptable. • Le document doit être pensé dès le début pour son support de publication.
Horizon • Amélioration des outils de conversion • Multiplication des initiatives du même genre, laissant attendre de rapides progrès. • Logiciels validants mais conviviaux? • Formation des usagers
II. La conversion des usagers: un chantier essentiel • Culture bureautique très inégale • Formation à la feuille de style, mais aussi formation de base à garantir • Culture de l'imprimé vs culture du document structuré • La structuration n’est pas la présentation • Méconnaissance des questions de droits d'auteur
Instructions aux auteurs • Un chantier important (qui serait mutualisable): les instructions aux auteurs, pour obtenir des documents conçus en fonction de la publication et de la diffusion électroniques
Comment passer la période transitoire? • L’objectif du XML peut être considéré comme évident. • Avantages de s'engager tôt dans la production de documents structurés: • S'engager tôt parce que la formation des auteurs, des équipes, et des décideurs, est un travail de longue haleine • Un exemple du bénéfice d'avoir choisi tôt: les thèses. Implication précoce de quelques établissements, d'où orientation nationale, crédits, développement d'outils, expérience croissante, etc.
Comment passer la période transitoire? (2) • Mais le présent et le futur proche ne sont pas toujours faciles à gérer. Dans l'immédiat, la conversion de certains documents est impossible ou coûteuse. • Plutôt que de renoncer aux avantages évidents du XML, solution mixte (PDF + XML par exemple)? • Un choix non sans défauts, mais difficilement évitable selon moi, à moins de ne pas publier du tout certains documents tant que des problèmes techniques demeurent.