130 likes | 207 Views
nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker?” “ Anforderungen von eScience und Grid-Technologie an die Archivierung wissenschaftlicher Rohdaten ” Dr. Jens Klump Baden-Baden, 2. Mai 2007. Was war die Frage?.
E N D
nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker?” “Anforderungen von eScience und Grid-Technologie an die Archivierung wissenschaftlicher Rohdaten” Dr. Jens Klump Baden-Baden, 2. Mai 2007
Was war die Frage? • eScience- und Grid-Projekte erzeugen Datenbestände, die sich durch ihre Größe und/oder Komplexität auszeichnen. • Genügen die bisher entwickelten Verfahren für die digitale Langzeitarchivierung den neuen Anforderungen? • Kommen aus den Arbeiten der eScience- und Grid-Projekte neue Ansätze und Werkzeuge für die digitale Langzeitarchivierung?
Definition: eScience • eScience ist die globale Zusammenarbeit in Schlüsselgebieten der Forschung und die nächste Generation Werkzeuge, um diese Art von Forschung zu ermöglichen. (Taylor in Hey, 2003) • eScience ist gekennzeichnet durch eine hohe semantische Komplexität in der Verknüpfung von Daten, Dokumenten und interaktiven Werkzeugen zu deren Bearbeitung.
Definition: Grid • Das Grid stellt standardisierte Schnittstellen zu verteilten Rechen-, Speicher- und Bandbreitenressourcen einer heterogenen Infrastruktur sowie komplexen Dienst-leistungen und Forschungsinfrastruktur bereit (nach Berman, 2003). • Derzeit ist „das Grid“ noch eine Vision. Es existieren aber bereits eine Reihe von Community Grids.
Definition: dLZA von Daten • Langzeitarchivierung von Daten aus Forschungs- und Entwicklungsprojekten bezeichnet die nachnutzbare und vertrauenswürdige Archivierung von Daten über das Ende eines Projektes hinaus. • Die Dauer der Archivierung wird durch eine dLZA-Policy oder durch den gesetzlichen Rahmen des Projekts bestimmt.
Fragen an die Projekte • Erwartete Datenmenge und Komplexität • Umgang mit Metadaten • Daten-Grid und digitale Bibliothek • Forschungsbedarf • Neue Lösungsansätze für dLZA durch Grid • Best-Practice Beispiele
Erwartete Datenmengen und ihre Komplexität • Datenmengen vs. Komplexität in Grid- und eScience Projekten • Gigabyte bis Petabyte • Geplante Dauer der Archivierung • 5 Jahre bis „für immer“ • Auswahlkriterien • Abhängig vom Reifegrad des Produk-tionssystems und vom Wert der Daten. • Archivfähigkeit der Datentypen • Wird nicht geprüft.
Umgang mit Metadaten • Metadaten • Das Bewusstsein für die Bedeutung von Metadaten ist allgemein vorhanden. • Standards • werden eingesetzt, sofern sie vorhanden sind. • Encodierung semantischer Beziehungen • Ist nicht in allen Projekten relevant. • Erfassen von Prozesswissen • Ist nicht in allen Projekten relevant.
Daten-Grid und digitale Bibliotheken • Sind die Daten für Dritte zugänglich? (Data sharing) • Soweit möglich, werden Daten zugänglich gemacht. • Werden semantische Verbindungen zwischen Veröffentlichungen, Daten und Forschungsmaterialien mit verwaltet? (Semantic Web und Internet der Dinge) • Ja, soweit in den Projekten relevant.
Forschungsbedarf • Stabile und nutzerfreundliche Grid Dienste • Standards (Metadaten, Schnittstellen) • Nachhaltige Datenformate • Archivierung von Software • Integration von Lit. Repositories • Verteile Datenarchive • Integration von Grid und Semantic Web • Management virtueller Organisationen • Service Level Agreements und vertrauenswürdige Archive
Neue Lösungsansätze für dLZA durch Grid • Outsourcing rechenaufwändiger Operationen, z.B. bei Formatkonversion, Skalierbarkeit. • dLZA im Data Grid, redundante Speicherung • Single sign-on Aber: • Viele Nutzer haben Vorbehalte gegenüber zentralisierten Diensten. • Für Anwender sind die Grid-Dienste noch nicht stabil genug.
Best Practice • Policies zur Langzeitarchivierung existieren in den Projekten nur bei externem Mandat • Best Practice Beispiele für den Einsatz von eScience und Grid-Technologie in der Langzeitarchivierung digitaler Forschungsdaten sind kaum bekannt.
Zusammenfassung • Bewusstsein für dLZA ist in den eScience- und Grid-Projekten vorhanden, jedoch wegen der kurzen Projektlaufzeiten selten formalisiert. • Grid-Technologie wird als potenziell nützlich für dLZA gesehen, aber ist noch zu wenig stabil. • Viele Nutzer misstrauen einer verteilten Speicherung im Data-Grid. • Für den Betrieb von dLZA im Grid gibt es noch keine Geschäftsmodelle. • Best Practice Beispiele sind kaum bekannt. Hier könnte mehr Information zu einer Verbesserung der Praxis führen.