220 likes | 352 Views
Archivierung elektronischer digitaler Daten und Akten (ARELDA) im Bundesarchiv. „Von der Theorie zur Praxis“ Peter Keller-Marxer, Schweizerisches Bundesarchiv, an der VSA/AAS-Arbeitstagung vom 22. November 2002. Inhalt der Präsentation.
E N D
Archivierung elektronischer digitaler Daten und Akten (ARELDA) im Bundesarchiv „Von der Theorie zur Praxis“ Peter Keller-Marxer, Schweizerisches Bundesarchiv, an der VSA/AAS-Arbeitstagung vom 22. November 2002
Inhalt der Präsentation • Positionierung der digitalen Archivierung im Bundesarchiv • Prinzipien und Konzepte der Lösungsentwicklung ARELDA • Strategische Informatikplanung EDI „Langzeitarchivierung digitaler Unterlagen“ von Bundesarchiv und Landesbibliothek Schwerpunkt: technische und organisatorische Konzepte
Methodische Schwachstellen (Analyse 2000) • Inadäquate Kommunikation: Fehlendes Informatikwissen im Archivbereich verunmöglicht … • Problemanalyse auf der ursächlichen (technischen) Ebene • Wirkungsanalyse auf der konzeptionellen (archivischen) Ebene • marktübliche Zusammenarbeit mit IT-Firmen war unproduktiv • Desinteresse des IT-Marktes und „der“ Informatik • „technologische Kurzlebigkeit“ ist der wesentliche Ertragsfaktor • Denken in Zeiträumen von mehr als 5 Jahren ist aus Erfahrung hoch spekulativ und wird deshalb als unattraktiv empfunden
Methodische Schwachstellen (Forts.) • IT-orientierte Projekte v.a. an Universitäten beheimatet • kurzlebig; erreichen nie die Anwendungsebene • Zweifel an wissenschaftlicher „Ernsthaftigkeit“: viele „Drafts“ auf dem Web, aber nur wenige werden auch publiziert • kaum praktische Erfahrungen der Archive • fehlende Kenngrössen (Komplexität, Qualitätssicherung) • keine Kostenabschätzungen, selbst für kurzfristige Vorhaben • keine „Fehlererfahrungen“
Neupositionierung ARELDA (ab Mitte 2000) • Institutionalisierung einer Kompetenz „Archivinformatik“ • Umnutzung bestehender Personalmittel sowie Reduktion der Investitionsmittel zugunsten der IT-Personalmittel: 4 der 8 MitarbeiterInnen der Fachstelle ARELDA sind Berufsinformatiker. • Dezidiert komplementäres Vorgehen: • Support Team ARELDA (STA): Sicherstellung der kontinuierlichen Übernahme digitaler Unterlagen mittels ‚Ad hoc‘-Lösungen • Vorrangige Implementierung der IT-Pilotinfrastruktur ARELDA als Basis für die tägliche Archivierung und Erhebung von Kenngrössen • Projekt-Team ARELDA (PTA): KIG-Projekt ARELDA • reine Projektorganisation • Schwerpunkt Entwicklung (erklärtes Ziel: operative Systeme) • Realistische Finanzierungsgrundlage (KIG)
Kenngrössen „Support Team ARELDA“ • Archivdatenmenge Stand Ende 2002: ca. 6 Terabyte (TB) • Zuwachs Archivdatenmenge 2003-2005: 20 TB / Jahr • Technik: • eigenes, vom restlichen BAR und der BV durch Firewall abgeschirmtes 100/1000 Mbit/s Netzwerk • 3 AIT2 Tape-Libraries (60 Slots), 6 TB (3 TB native) • 8 Server (Unix), 600 GB RAID5, 5 kW USV • 11 Arbeitsstationen (Windows2000 / Reflection) • Beispiele für laufende Datenübernahmen 2002: • Zentrales Ausländerregister ZAR (BFA) • Elektronisches Abstimmungssystem des Nationalrates (PD) • Datenbank des Holocaust-Fonds (EFV) • Staatsschutz-System ISIS (Bundespolizei) • Tonaufnahmen (digital) Parlamentsdebatten (PD)
Kenngrössen „Projekt ARELDA“ • Etablierung „langfristiger“ und „pragmatischer“ Lösungen • „langfristig“ = prinzipiell fortschreibbar über technologische Generationen von ~10 Jahren hinaus (Austausch der kompletten technischen Infrastruktur): Schwerpunkte „generische Methoden“ • „pragmatisch“: Stafetten-Prinzip; Vorgehen im Bewusstsein, ein unvollständig gelöstes Problem an die nächste Generation weiterzugeben, jedoch in (auch aus heutiger Sicht!) handhabbarer und finanzierbarer Form • Eines der 5 Schlüsselprojekte der „eGovernment-Strategie des Bundesrates“ • Finanzierung: zwei Etappen 2001 – 2004 und 2005 – 2008 • 1. Etappe durch KIG und BAR: 6.1 Mio CHF • Gesamtkosten Realisierung bis 2008: ca. 15 Mio CHF (ohne Betriebskosten)
Prinzipien und Konzepte der Lösungsentwicklung ARELDA Grundsätze des Vorgehens und Richlinien für die Systemarchitektur und -entwicklung
Prinzipien der Lösungsentwicklung • Eigenes experimentelles Prototyping • Untersuchung kritischer Teilsysteme auf Machbarkeit; Kernfunktio-nalitäten durch schrittweise Entwicklung von Pilotsystemen • Ermittlung von konsistenten und vollständigen Anforderungen; Spezifikationen „vorgedachter Lösungen“ für Auftragfnehmer • Reduzierung der Projektrisiken und massive Kosteneinsparung bei Kooperationen mit IT-Firmen. • Entkoppelung der Subsysteme (Prozesse und Technologie) • Übernahme und Erschliessung (OAIS: „Ingest”) • Aufbewahrung und Bestandserhaltung (OAIS: „Data Management“ und „Archival Storage“) • Darstellung und Benutzung (OAIS: „Access“)
Prinzipien der Lösungsentwicklung (Forts.) • Klare Unterscheidung zwischen Archivformaten (Fokus: 20 Jahre) und Benutzungsformaten (Fokus: 2 Jahre) • Archivformate sind in der Regel „schwer“ und „unhandlich“ • Benutzungsformate sind in der Regel nicht archivtauglich (‚ad hoc‘-Erzeugung, keine Migration) • Entkoppelung der Datenhaltung (Primär- und Metadaten) von der archivischen Verzeichnung (Systematik und Archivtektonik) • Archivische Verzeichnung und Bestandsbildung sind „Metastrukturen” resp. applikatorische Elemente: Datenhaltung und Zugriff auf Daten darf nicht unmittelbar davon abhängig sein (3-Schichtenmodell der Informatik) • spezifische Verzeichnistraditionen und –eigenheiten, die auf die Ebene Datenhaltung propagiert werden, machen Systeme zu Insellösungen • Systematische archivische Verzeichnung vermag nur einen kleinen Teil der anfallenden und nötigen Metadaten spezifischer Unterlagentypen (z.B. Datenbanken) aufzunehmen • originale Metadaten sind ebenfalls Archivgut
Prinzipien der Lösungsentwicklung (Forts.) • Generische Archivierung mit offenen Standardformaten • Keine Archivierung von Software und Hardware • Wahl weniger und „offener Standardformate”. Kriterien: • offen zugängliche und vollständige technische Spezifikation • Zugang zum Inhalt der Daten resp. dessen Darstellung nicht abhängig von spezifischer Software/Hardware weniger Hersteller • Plausibilität für eine langfristige, aufwärts-kompatible technische Standardisierung und Weiterentwicklung durch international abgestützte, marktrelevante Institutionen oder Konsortien • Konversion von nicht archivtauglichen Formaten in das Standardformat mit vernünftigem Aufwand und tolerierbarem Verlust an Information und Authentizität durchzuführen • Vermutete Migrationszyklen > 15 Jahre • Konversionen/Migrationen müssen automatisierbar sein (inkl. Qualitätssicherung)
Prinzipien der Lösungsentwicklung (Forts.) • Inhärentes Disaster Recovery: Auch bei Totalverlust der Datenver-waltungssoftware und -information muss das Archivgut (Primär- und Metadaten) von den Datenträgern und aus den Speicherdaten regeneriert werden können. (Auch bei High-End Systemen erfüllen nur wenige Produkte diese Anforderung.) • Archivformat-Dokumentationen:Vollständige technische Spezifikationen der Datei-, Daten- und Speicherformate in leicht zugänglicher Form mitarchiviert (z.B. auch auf Mikrofilm oder Papier). • Prozess-Dokumentation: Archivdaten werden über Jahrzehnte aktiv geführt. Zur Nachvollziehbarkeit der dabei möglichen Beeinträch-tigungen von Authentizität und Integrität ist es nötig, auch die sich ändernden Archivprozesse eindeutig, nachvollziehbar und in archivierbarer Form zu beschreiben. • Qualitätssicherung: Archivische Prozesse müssen eindeutig und nachweisbar eingehalten werden (softwareunterstützter Workflow mit entsprechend vollständigen Prozessdefinitionen).
Prinzipien der Lösungsentwicklung (Forts.) • Funktionale Architektur konform zum „Reference Model for an Open Archival Information System“ (OAIS) ISO-14721:2002 • Standard lässt Implementierung (Datenarchitektur und Systemarchitektur) bewusst offen • vorliegenden Version: zu offen, ontologische Schwäche; Implementierungen sind/werden entgegen den Zielen des Standards nicht vergleichbar sein
Schlüsselkonzepte (grob) • Begriff „Digitale Langzeitarchivierung“ lässt sich deduktiv nicht genügend präzis fassen. Deshalb induktives Vorgehen mit einzelnen Schlüsselkonzepten: • Persistenz: Potential oder Fähigkeit eines digitalen Archivobjekts, länger zu existieren als jede es umgebende technische Ausrüstung • Physische Integrität: Vollständigkeit und Unbeschädigtheit eines digitalen Archivobjektes auf Bit-Ebene über die Zeit. • Authentizität(„intellektuelle Integrität“): „Ein authentisches Objekt ist eines, das ist, was es vorgibt zu sein.“ Authentifizierung (der Autorenschaft und Provenienz) + Vertrauenswürdigkeit (der enthaltenen Evidenz) • Persistenz, Integrität und Authentizität lassen sich relativ „leicht“ einzeln erreichen und isoliert analysieren, aber … • Kontinuität: „Kontinuität“ bedeutet, dass diese Charakteristiken resp. Prozesse gleichzeitig (parallel), korreliert (parametrisiert) und permanent in der Zeit propagiert werden müssen. Kontinuität ist deshalb ein komplexes Management-Konzept. • Konzept „Kontinuität“ nur möglich mit dem Ansatz „offene Archivformate“
Hinweis zum Konzept „Kontinuität“ • „Kontinuität” • Charakteristiken resp. Prozesse zu „Persistenz“, „Integrität“ und „Authentizität“ müssen korreliert und parametrisiert in der Zeit propagiert werden. • Archivdaten werden über Jahrzehnte aktiv geführt. Zur Nachvollziehbarkeit (Authentizität, Integrität) müssen auch die sich ändernden Archivierungs-prozesse eindeutig und nachvollziehbar beschrieben und archiviert werden. • Archivierungsprozesse müssen eindeutig und kontrollierbar eingehalten werden (z.B. durch Workflow-Steuerung). • zu diesem Thema: Dissertation S. Heuscher (ARELDA) • “Continuity in Digital Archives: A Process Framework for Automated Workflow” • Process Specification Language PSL (ISO/CD 18629-11): neutrale Sprache und Ontologie zur Beschreibung von Prozessen in der diskreten Zeit. • Ziele der Dissertation • A parameterized process model which allows to transform the archival processes of the OAIS model into machine-readable form (PSL/XML), suited for long-term preservation • A workflow engine which is able to automatically derive workflow from the archival process descriptions of the process model
Dringender Klärungsbedarf • Fehlende Parameter und Kennzahlen der Risikoanalyse • physischer Verlust durch hohes Risiko von Fehlmanipulationen oder Defekten; • logischer Verlust durch irreversible Obsoleszenzen; • operativer Verlust durch unfinanzierbaren Verwaltungs- und Migrationsaufwand zunehmend heterogener Datenbestände. • Fehlende Parameter und Kennzahlen der Betriebskosten • Datenmenge wächst kontinuierlich (wie stark? wie stark steuerbar?) • Digitales Archivgut bedingt permanenten Unterhalt • Finanzplanung: Hauptbedrohung „operativer Verlust“ • NASA Earth Science Enterprise: Cost Estimation Tool Set • Generisches, funktionales Kostenmodell, basierend auf Kennzahlen von 25 internationalen Science Data Centers, „costing by analogy“ • Verfügbar Ende 2003
Dringender Handlungsbedarf • Digitale Archivierung ist „beliebig“ kostenintensiv und schwer planbar, die Wirksamkeit des Ressourceneinsatzes deshalb entscheidend: • Erarbeitung griffiger Bewertungskriterien für Unterlagentypen • Methoden und technische Hilfsmittel zum proaktiven Erfassen und „Bewirtschaften“ der archivwürdigen IT-Systeme. • z.B. BAR-Projekt APOLLON • Entwicklung von Übernahme-Instrumenten, die direkt beim Aktenbildner eingesetzt werden können: • Standardisierte Archiv-Schnittstellen • z.B. Bundesarchiv/Informatik-Strategieorgan Bund ISB: Metadatenkatalog und Archivschnittstelle GEVER • Tools zur Konversion in Archivformate • z.B. Bundesarchiv: Eigenentwicklung SIARD (zusammen mit Trivadis Schweiz) zur software-unabhängigen Archivierung aus relationalen Datenbanken
BUNDESAMT FÜR KULTUR OFFICE FÉDÉRAL DE LA CULTURE UFFICIO FEDERALE DELLA CULRURA UFFIZI FEDERAL DA CULTURA Strategische Informatikplanung EDI „Langzeitarchivierung digitaler Daten und Akten“ (SIPELDA) von Bundesarchiv, Bundesamt für Kultur und Landesbibliothek
SIPELDA (GSEDI, BAR, BAK, SLB): Ziele • Im Auftrag des Departements des Innern, Federführung beim Bundesarchiv. Abschluss Februar 2003. • Instrument des Departements bei der mittel- und lang-fristigen Entscheidfindung, Finanzplanung und IT-Führung • ARELDA, eHelvetica: Synergien erschliessen, Unterschiede identifizieren • Vorgabe von IT-Architektur-Standards (Informations-, Anwendungs-, Daten- und Technologie-Architektur) für Archivierungsprojekte des Departements • Strategische Positionierung gegenüber Dritten (CH/Ausland), Koordination mit Digitalisierungsprojekten von BAR und BAK • Prüfung möglicher Zentralisierungen von Dienstleistungen
SIPELDA: Optionen • Erste Konsequenz: SLB beteiligt sich konzeptionell und finanziell an der WTO-Ausschreibung 2003 des BAR für ein Nearline-Storage-System. • Evaluierte Synergie-Optionen u.a.: • Aufbau eines gemeinsamen („mandatenfähigen“) „Digital Archive Repository“ (OAIS-Typ „Shared Functions Archives“) • Aufbau eines gemeinsamen, zentralen und ISO-11179-konformen Metadaten-Repositories und Registry-Prozesses • Einrichtung eines gemeinsamen Kompetenzzentrums „Digitale Archivierung“
Kontakt Schweizerisches Bundesarchiv Peter Keller-Marxer Fachstelle ARELDA Archivstrasse 24 CH-3003 Bern 031 325 00 89 peter.keller@bar.admin.ch