1 / 13

nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker?” “ Anforderungen von eScience und Grid-Technologie an die Archivierung wissenschaftlicher Rohdaten ” Dr. Jens Klump Baden-Baden, 2. Mai 2007. Was war die Frage?.

quinto
Download Presentation

nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker?” “Anforderungen von eScience und Grid-Technologie an die Archivierung wissenschaftlicher Rohdaten” Dr. Jens Klump Baden-Baden, 2. Mai 2007

  2. Was war die Frage? • eScience- und Grid-Projekte erzeugen Datenbestände, die sich durch ihre Größe und/oder Komplexität auszeichnen. • Genügen die bisher entwickelten Verfahren für die digitale Langzeitarchivierung den neuen Anforderungen? • Kommen aus den Arbeiten der eScience- und Grid-Projekte neue Ansätze und Werkzeuge für die digitale Langzeitarchivierung?

  3. Definition: eScience • eScience ist die globale Zusammenarbeit in Schlüsselgebieten der Forschung und die nächste Generation Werkzeuge, um diese Art von Forschung zu ermöglichen. (Taylor in Hey, 2003) • eScience ist gekennzeichnet durch eine hohe semantische Komplexität in der Verknüpfung von Daten, Dokumenten und interaktiven Werkzeugen zu deren Bearbeitung.

  4. Definition: Grid • Das Grid stellt standardisierte Schnittstellen zu verteilten Rechen-, Speicher- und Bandbreitenressourcen einer heterogenen Infrastruktur sowie komplexen Dienst-leistungen und Forschungsinfrastruktur bereit (nach Berman, 2003). • Derzeit ist „das Grid“ noch eine Vision. Es existieren aber bereits eine Reihe von Community Grids.

  5. Definition: dLZA von Daten • Langzeitarchivierung von Daten aus Forschungs- und Entwicklungsprojekten bezeichnet die nachnutzbare und vertrauenswürdige Archivierung von Daten über das Ende eines Projektes hinaus. • Die Dauer der Archivierung wird durch eine dLZA-Policy oder durch den gesetzlichen Rahmen des Projekts bestimmt.

  6. Fragen an die Projekte • Erwartete Datenmenge und Komplexität • Umgang mit Metadaten • Daten-Grid und digitale Bibliothek • Forschungsbedarf • Neue Lösungsansätze für dLZA durch Grid • Best-Practice Beispiele

  7. Erwartete Datenmengen und ihre Komplexität • Datenmengen vs. Komplexität in Grid- und eScience Projekten • Gigabyte bis Petabyte • Geplante Dauer der Archivierung • 5 Jahre bis „für immer“ • Auswahlkriterien • Abhängig vom Reifegrad des Produk-tionssystems und vom Wert der Daten. • Archivfähigkeit der Datentypen • Wird nicht geprüft.

  8. Umgang mit Metadaten • Metadaten • Das Bewusstsein für die Bedeutung von Metadaten ist allgemein vorhanden. • Standards • werden eingesetzt, sofern sie vorhanden sind. • Encodierung semantischer Beziehungen • Ist nicht in allen Projekten relevant. • Erfassen von Prozesswissen • Ist nicht in allen Projekten relevant.

  9. Daten-Grid und digitale Bibliotheken • Sind die Daten für Dritte zugänglich? (Data sharing) • Soweit möglich, werden Daten zugänglich gemacht. • Werden semantische Verbindungen zwischen Veröffentlichungen, Daten und Forschungsmaterialien mit verwaltet? (Semantic Web und Internet der Dinge) • Ja, soweit in den Projekten relevant.

  10. Forschungsbedarf • Stabile und nutzerfreundliche Grid Dienste • Standards (Metadaten, Schnittstellen) • Nachhaltige Datenformate • Archivierung von Software • Integration von Lit. Repositories • Verteile Datenarchive • Integration von Grid und Semantic Web • Management virtueller Organisationen • Service Level Agreements und vertrauenswürdige Archive

  11. Neue Lösungsansätze für dLZA durch Grid • Outsourcing rechenaufwändiger Operationen, z.B. bei Formatkonversion, Skalierbarkeit. • dLZA im Data Grid, redundante Speicherung • Single sign-on Aber: • Viele Nutzer haben Vorbehalte gegenüber zentralisierten Diensten. • Für Anwender sind die Grid-Dienste noch nicht stabil genug.

  12. Best Practice • Policies zur Langzeitarchivierung existieren in den Projekten nur bei externem Mandat • Best Practice Beispiele für den Einsatz von eScience und Grid-Technologie in der Langzeitarchivierung digitaler Forschungsdaten sind kaum bekannt.

  13. Zusammenfassung • Bewusstsein für dLZA ist in den eScience- und Grid-Projekten vorhanden, jedoch wegen der kurzen Projektlaufzeiten selten formalisiert. • Grid-Technologie wird als potenziell nützlich für dLZA gesehen, aber ist noch zu wenig stabil. • Viele Nutzer misstrauen einer verteilten Speicherung im Data-Grid. • Für den Betrieb von dLZA im Grid gibt es noch keine Geschäftsmodelle. • Best Practice Beispiele sind kaum bekannt. Hier könnte mehr Information zu einer Verbesserung der Praxis führen.

More Related