240 likes | 372 Views
AP2: Erfassen & Kategorisieren von Datenbeständen. Expertenworkshop 09.12.2008 Göttingen. „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de. Sven Vlaeminck Niedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen
E N D
AP2: Erfassen & Kategorisieren von Datenbeständen Expertenworkshop 09.12.2008 Göttingen „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de Sven Vlaeminck Niedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen Historisches Gebäude, Papendiek 14, 37073 Göttingen Fon: 0551 39-4773 | Mail to: vlaeminck@sub.uni-goettingen.de
AP2 – Ziele & Methodik Ziele: • Ermittlung von Eigenschaften der Datenbestände • Ermittlung von Kriterien zur Kategorisierung • Einbeziehen heterogener Datenbestände Methode: • Evaluierung des Ist-Standes durch Nachnutzung des nestor-Online-Surveys 2007 („Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen“) • Literaturstudium
„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de = Ist-Stand Erfassung = Ergebnisse der Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen des nestor – Netzwerks [www.langzeitarchivierung.de]
„Gibt es Daten, die über den aktuellen Gebrauch hinweg erhalten bleiben sollen?“
Interesse an & Planung von Maßnahmen zur digitalen Langzeitarchivierung
Genutzte Formate Insgesamt wurden 96 (!) unterschiedliche Formate genannt. Schwerpunkte: Adobe PDF, Formate der MS-Office Familie, JPG, TIFF, Plain Text.
Ergebnisse • Großes Interesse & großer Bedarf • Kaum konkrete Planungen • Starke Divergenz bei Datenumfang • Formate stark heterogen, häufig proprietär • Geringe Metadatenimplementierung • Kaum standardisierte Metadatenschemata • Komplexe Ausgangslage für dLZA von Forschungsdaten
= Kategorisierungsansätze = „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de
Wie lassen sich Forschungsdaten kategorisieren? • Viele Ebenen der Kategorisierung denkbar: • Nach ihrer (fachwissenschaftlichen) Herkunft… • Nach MIME-Type o.ä. … • Nach ihrem Inhalt / Content… • Nach der Datengröße (z.B. in GB)… • Vorschlag: • Kategorisierung anhand von Kriterien, die Auswirkungen (z.B. auf Kosten oder Policy) haben… • Daher: Kategorisierung anhand von Vorhaltezeiträumen & Formateignung für dLZA • Vorteile: Ausreichend generisch, quantifizierbar…
Dimension I: Kategorisierung nach Vorhaltzeiträumen • Kategorisierung nach geplanter Archivierungszeit • Vier sinnvolle Vorhaltezeiträume: • bis zu 5 Jahren • bis zu 10 Jahren • bis zu 30 Jahren • mehr als 30 Jahre => Überführung in Service Level
Dimension II: Format-Eignung • Ermittlung & Bewertung der Format-Eignung für dLZA anhand von sieben Kriterien • Offenheit & Lizenzfreiheit • Verbreitungsgrad • Selbstdokumentation • Robustheit • Komplexität • Schutzmechanismen • Abhängigkeiten • Diese Kriterien verfügen über unterschiedlich viele Ausprägungen: • z.B.: Kriterium: (geringe) Abhängigkeiten • Ausprägung I: Unabhängigkeit von bestimmter Hardware • Ausprägung II: Unabhängigkeit von bestimmten OS • Ausprägung III: Unabhängigkeit von bestimmter Software • Ausprägung VI: Unabhängigkeit von externen Ressourcen
Bewertung der Format-Eignung • Bestimmen der Format-Eignung* durch • Gewichtung der Relevanz verschiedener Kriterien-Ausprägungen (abhängig von Policy, z.B. zwischen 1 & 9) • Vergabe von Punktwerten für bestimmte Formate ( z.B. Bedingung sehr gut erfüllt =2 Punkte, Kriterium mittelmäßig erfüllt = 1 Punkt, Kriterium nicht erfüllt = 0 Punkte) • Multiplikation der Punktwerte für Gewicht der Kriterien-Ausprägung und dem vergebenen Wert • Division durch die Anzahl der Ausprägungen eines Formats. • Der Punkt-Gesamtwert bestimmt die Eignung des Formats – je höher er ausfällt, desto geeigneter ist ein Format * Nach: Rog, Judith / van Wijk, Caroline: Evaluating File Formats for Long-term Preservation. National Library of the Netherlands, Den Haag, 2008
Die Kategorisierungsmatrix (IV) • Kategorisierungsdimension „Vorhaltezeitraum“ noch nicht implementiert • Bei einer Formatbewertung für alle „Vorhaltezeitraum“ ergibt sich folgende Grafik (-> fiktive Werte!)
„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de Vielen Dank für Ihre Aufmerksamkeit! Nun ist Raum für Anmerkungen und zur Diskussion…
= Leitfragen zur Diskussion = • Ist diese Form der Kategorisierung zielführend? • Ist das vorgeschlagene Konzept ausreichend generisch UND ausreichend konkret? • Werden weitere Kriterien und Ausprägungen gesehen, die Eingang in eine Bewertung erhalten sollten? • Sehen Sie andere sinnvolle Ebenen für eine Kategorisierung von Forschungsdaten? • Fehlen Ihnen grundlegende Punkte, die Ihrer Meinung nach unbedingt Eingang in eine Kategorisierung finden müssten?