280 likes | 542 Views
L’archivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013. Sommaire. Le CINES. La problématique de l’archivage numérique pérenne La plateforme d’archivage du CINES: PAC La mission d’archivage au CINES
E N D
L’archivage pérenne du document numérique au CINES Mireille Gay(CINES)mireille.gay@cines.frFormation STAR – 27 septembre 2013
Sommaire • Le CINES. • La problématique de l’archivage numérique pérenne • La plateforme d’archivage du CINES: PAC • La mission d’archivage au CINES • Architecture; Principe de fonctionnement • Implémentation des procédures d’assurance qualités (techniques et organisationnelles) • Les données archivées; Volumétrie Formation STAR, Paris – 27/09/2013
Le CINES Centre Informatique National de l’Enseignement Supérieur • Basé à Montpellier (Hérault, France) • EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) – créé en 1980 • Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche • Missions : • Calcul numérique intensif • Archivage pérenne de documents électroniques • Activité transversale : hébergement d'environnements informatiques • Plus d’information : http://www.cines.fr/ Formation STAR, Paris – 27/09/2013
La mission d’archivage du CINES Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique. • Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat • Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée • Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne L’équipe : 1 chef de projet, 8 ingénieurs, 1 archiviste, 2 techniciens (11 ETP) Formation STAR, Paris – 27/09/2013
Le service d’archivage pérenne du CINES Objectifs : la mise en place d’une solution Performante pour la conservation à moyen et long terme du patrimoine numérique des établissements Economique et sécurisée Contraintes Besoin d’une solution générique, basée sur les normes du domaine ; Adoption de standards → facilite la démarche qualité pour la conservation ; Veille technologique et de migration. Les données concernées sont : Les données scientifiques – résultats d’observations ou de calcul Les données patrimoniales – pédagogiques, publications, etc. Les données administratives – archives intermédiaires Dans le respect du contexte législatif archivistique français Formation STAR, Paris – 27/09/2013
PAC: Les infrastructures, supports et moyens de PAC Tous les projets d’archives à long terme partagent la même plateforme • Mutualisation de l’infrastructure matérielle d’archivage ; • Protocole de versement générique ; • Diminution des coûts de mise en place et d’exploitation. • Le service d’archivage bénéficie des infrastructure et de l’équipe d’experts d’un Centre Informatique National • 4 salles machine (820 m2), 1 salle 500m2 en construction • Alimentation électrique (lignes 2,6 MW et 10MW) secourue (groupe électrogène 1,5MW) • Réseau RENATER (lien 10Gbits) La Plateforme d’archivage pérenne au CINES – PAC v2.0 • Capacité actuelle 40 To + 10 To en reserve • En exploitation depuis Mai 2008 • Logiciel d’archivage (Arcsys (Infotel)+développements spécifiques CINES) • Serveurs applicatifs et baie de stockage SUN – Oracle • Librairie de bandes IBM (2 x 1Po) Formation STAR, Paris – 27/09/2013
Le contexte, la problématique et les constats Qu’est-ce que l’archivage électronique pérenne ? L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient : • Dans son aspect physique comme dans son aspect intellectuel, • Sur le très long terme soit 30 ans et au-delà, • De manière à ce qu’il soit en permanence accessible et compréhensible. Formation STAR, Paris – 27/09/2013
Le contexte, la problématique et les constats 4 risques inéluctables : • Connaissance perdue du contenu des fichiers ; • Format de fichier inconnu ; • Support physique détérioré ; • Logiciel ou matériel de lecture disparu. Temps Archivage pérenne = Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent Formation STAR, Paris – 27/09/2013
Les défis, orientations et choix pour l’archivage au CINES De quoi s’agit-il déjà ? Est-ce bien ce qui est indiqué sur la disquette ? La disquette est-elle toujours en bon état ? Voici un document que j’ai créé en 1998… SUPPORT : VEILLE + MIGRATION PHYSIQUE METADONNEES DESCRIPTIVES + IDENTIFICATION UNIQUE et PERENNE Mon portable, acheté en 2006, n’a pas de lecteur de disquette… Ça marche ! Mais j’ai perdu toute ma mise en forme… ENVIRONNEMENT MATERIEL : VEILLE TECHNO et ANTICIPATION INTEGRITE AUTHENTICITE J’ai créé ce document avec Claris Works. Comment retrouver ce logiciel ? Quel est le format du document ? J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ? ENVIRONNEMENT LOGICIEL : privilégier les FORMATS DURABLES + MIGRATION LOGIQUE SYSTÈME D’EXPLOITATION
Les normes et standards utilisés • OAIS - ISO 14721 : Reference model for an Open Archival Information System • Modèle purement conceptuel, ne fait aucune recommandation technique • P2A Politique et pratiques d’archivage (sphère publique) • Recommandations en termes d’architecture, moyens, sécurité, etc. • Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination • Normes internationales de description archivistique • ISAAR-CPF – Norme Internationale sur les notices d’autorité utilisées pour les Archives relatives aux collectivités, aux personnes ou aux familles • ISAD-G – Norme générale et internationale de description archivistique • Métadonnées descriptives de l’archive • DCMI – Dublin Core Metadata Initiative • Identifiant unique et pérenne • Interne, séquentiel, basé sur le principe URI • Couplé à un identifiant persistant externe de type ARK • Empreintes numériques • Hashing MD5, SHA-256, SHA-1 Formation STAR, Paris – 27/09/2013
Qualité organisationnelle: La certification • Plusieurs audits internes/externes depuis 2009 en collaboration avec le cabinet de consultants Ourouk • Agrément du SIAF pour la conservation d’archives publiques intermédiaires (Arrêté du 14 décembre 2010) • Accréditation Data Seal of Approval - attribuée aux centres de préservation numérique ayant mis en place des procédures d’assurance qualité afin de garantir l’accessibilité et l’intelligibilité des informations (15 Mars 2011) (16 critères) • Test audit ISO 16363 pour la certification de systèmes d’archivage électronique dans le cadre du projet européen APARSEN (7 Juin 2011) dont le CINES est partenaire (48 critères) • Objectif de certification du service à l’horizon 2014. Le CINES a une démarche de certification pour valider, mettre en avant les procédures d’assurance qualité mises en œuvre : Formation STAR, Paris – 27/09/2013
Les types de documents à archiver de façon pérenne Format publié Format largement utilisé (ou promis à l’être) Format normalisé si possible Les formats doivent respecter les spécifications de leur format • Présentant une valeur patrimoniale scientifique ou technique • De préférence des objets dits « primaires » • Documents originaux, • Bruts de scan, etc. • Dans un format identifié et vérifiable : • Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MPlayer pour • Identifier, Valider, Caractériser le format des fichiers transférés Formation STAR, Paris – 27/09/2013
Un outil en ligne pour valider les formats de fichier FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise • Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format • Les contrôles effectués sont les mêmes que ceux effectués lors d’un dépôt de document • Intègre les mêmes outils (Jhove, Imagemagick, DROID, Mplayer) que la plateforme d’archivage PAC • Permet une validation des fichiers avant dépôt de la part du producteur http://facile.cines.fr/ Formation STAR, Paris – 27/09/2013
PAC: Qualité des métadonnées : Les niveaux de MD dans PAC Fonds ou Projet d’archives PPDI.XML Document SIP.XML / AIP.XML formats Spécifications des formats des fichiers archivés. Les schémas xsd, dtd … BIR,Bibliothèque d’Informations de Représentation Métadonnees_métier.XML Projet PPDI , profil d‘archivage, convention, élimination … Spécifications doc techniques
La structure du document à archiver Document à archiver composé de deux pièces : • La description de l’archive • Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd) • 3 sections décrivant : • Le document dans son projet d’archives (DocDC) • Le document proprement dit (DocMeta) • Les fichiers du document (FichMeta) • Le dossier contenant les documents électroniques à archiver • Répertoire « DEPOT » • Sous-arborescence autorisée • Tout fichier présent doit être décrit dans le fichier sip.xml Formation STAR, Paris – 27/09/2013
Les acteurs Le producteur • Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé des archives dans l’exercice de son activité. Le service versant • Organisation qui transfère une archive à un service d’archives Le service de contrôle • Personne physique ou morale qui effectue le contrôle scientifique, juridique et technique des documents archivés, et éventuellement valide les demandes de communication d’archives Le service d’archives • Organisation recevant le document à archiver transféré et chargée de la conserver pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser L’utilisateur • Toute personne ou système client en relation avec le service d’archives pour trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives. Formation STAR, Paris – 27/09/2013
Les échanges Transfert d’archives • Transmission physique d’une archive ou d’un ensemble d’archives par un service versant à un service d’archives Modification d’archives • Modification des métadonnées et/ou du document pour en assurer la préservation Elimination d’archives • Elimination des métadonnées et/ou du document à la demande du services d’archives, du service versant ou du service de contrôle Restitution d’archives • Transmission de documents par le service d’archives au service versant ou au producteur afin de leur en restituer la garde Communication d’archives • Transmission de copie de document à un utilisateur ayant l’autorisation du service versant et /ou du service de contrôle Formation STAR, Paris – 27/09/2013
Le modèle fonctionnel OAIS Formation STAR, Paris – 27/09/2013
L’architecture logique de la plateforme PAC Service de Contrôle PAC : Plateforme d’archivage du CINES Serveur de Transfert Serveur de Stockage Serveur d’Accès Utilisateur Producteur Service Versant Administrateur Formation STAR, Paris – 27/09/2013
Les principes de fonctionnement Formation STAR, Paris – 27/09/2013
Les étapes du versement d’archives Formation STAR, Paris – 27/09/2013
PAC: Qualité du stockage • La qualité du stockage garantit la conservation du train de bits composant les fichiers de données • Copies multiples: • 2 copies sur disques • 1 réplication sur un site distant CC-IN2P3 • 2 copies sur bandes • Indépendance des supports de copies (mélange disques/bandes, localisation géographique) • Audit fréquent de l’intégrité des copies • Au niveau matériel : vérification des contrôleurs de disques, contrôleurs réseau etc. • Migration physique. • Au niveau logiciel : (Archeck module de supervision qui détecte les corruptions silencieuses,..) • Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale • Utilisation d’algorithme de hachage (MD5, SHA-256), etc. 22 Formation STAR, Paris – 27/09/2013
La stratégie de préservation des documents La stratégie de préservation des documents archivés repose sur la migration (pas d’émulation) Migration physique La technologie évolue: changement du support de stockage Effectuée en tâche de fond par l’application d’archivage, pas d’arrêt de service, le service versant est informé Migration logique Conversion de formats Expertise et veille technologique pour la détection de l’obsolescence d’un format de fichier pris en charge sur la plateforme Identification d’un format offrant de meilleures garanties de pérennité Migration après accord des services versants concernés Pas de modification pour le service versant de l’identifiant unique attribué lors de l’archivage Conservation des versions 1 (initiale), n-1 et n d’un document migré Formation STAR, Paris – 27/09/2013
L’archivage au CINES en quelques dates… 2004 2006 2008 2010 2013 • 1ères réflexions sur l’archivage numérique • Prestation de conseil en AE (2005) • Arrêté du 7 août 2006 (Thèses) • 1ères thèses versées dans PAC_V1, une plateforme d’archivage « maison » (arrêté du 07/08/2006) • Convention pour l’archivage du portail Persée (02/05/2007) • Recadrage des activités du CINES (lettre du 12/02/2008) • Mise en production de PAC_V2 (basée sur la solution Arcsys d’Infotel et un client spécifique) • « migration de plateforme » • Archivage de HAL(Hyper Articles en Ligne), des données orales du CRDO (TGE-Adonis), de livres numérisés (Cujas, BIUS, BUPMC,BSG…) • 2009 : 1er To archivé • Agrément du SIAF (14/12/2010) • Archivage Cour des comptes, Inserm • Accréditation DSA (2011) • Certification ISO 16363 (en cours) • 26 To archivés Formation STAR, Paris – 27/09/2013
Les thèses : Volumétrie Début septembre 19873 thèses déposées Formation STAR, Paris – 27/09/2013
Les thèses : Répartition des versions de formats Formation STAR, Paris – 27/09/2013
Questions & Réponses Plus d’information à l’adresse : http://www.cines.fr/spip.php?rubrique219 mireille.gay@cines.fr Formation STAR, Paris – 27/09/2013