450 likes | 554 Views
Lehrstuhl Ökosysteme und Umweltinformatik. 27·10 ·2010 Organisation und Verwaltung von Forschungsdaten zum Gewässermanagement Mirko Filetti. 1. 2. GLIEDERUNG. Einleitung Aktuelle Situation „GeoNetwork Opensource“ (GNOS) Live-Präsentation GNOS Schlussbemerkungen.
E N D
Lehrstuhl Ökosysteme und Umweltinformatik 27·10 ·2010 Organisation und Verwaltung von Forschungsdaten zum GewässermanagementMirko Filetti 1
2 GLIEDERUNG • Einleitung • Aktuelle Situation • „GeoNetwork Opensource“ (GNOS) • Live-Präsentation GNOS • Schlussbemerkungen Lehrstuhl Ökosysteme und Umweltinformatik 2
3 THESE • Nur eine open source Software, wie „GeoNetwork Opensource“ (GNOS), ist für den öffentlichen Zugriff (open access) auf wissenschaftliche Daten in einem weltweiten Netzwerk nachhaltig geeignet. Lehrstuhl Ökosysteme und Umweltinformatik 3
THESE 4 • Warum open source? • Software ist für Alle frei verfügbar (keine Kosten) • Weltweite Entwicklergemeinde • Unabhängigkeit • Einheitliche Bedienung • Warum GNOS? • Benutzerfreundlich und gut anpassbar • Georeferenzierung / GIS - Layertechnik • Metadatensuche • Standards (XML, XSLT, ISO,…) • Harvesting / Nodes // Hierarchische Strukturen • Benutzerrechte / -verwaltung Lehrstuhl Ökosysteme und Umweltinformatik 4
5 01EINLEITUNG Lehrstuhl Ökosysteme und Umweltinformatik 5
EINLEITUNGDatenvolumen I 6 (de: ca. 1 Billion 1012) Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINLEITUNG 6
EINLEITUNG Datenvolumen II 7 Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINLEITUNG 7
EINLEITUNGDatenvolumen III 8 (de: Billion 1012) Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINLEITUNG 8
EINLEITUNG Datenvolumen IV 9 ~1 ZB = 1012 GB Nur mit modernen Kompresssionstechnologien ist diesem Missverhältnis beizukommen Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINLEITUNG 9
EINLEITUNG Datenvolumen V 10 Bis 2020 soll die weltweite digitale Datenmenge um den Faktor 44 auf runde 35 Zettabyte anwachsen. Das entspricht zwei Stapeln von DVDs, die von der Erde bis zum Mond reichen. 2009: ~1 ZB = 1012 GB Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINFÜHRUNG 10
EINLEITUNG Daten-Typen 11 • Big Science Data • (z.B. Satellitenbilder) Beispiele für Datentypen: Programme Audio/Video Studien, best practice Konferenz-Ergebnisse Datenreihen Verzeichnisse / Kataloge Interaktive Ressourcen Karten & Grafiken Fotos Andere Informationsquellen zeichnen sich aus durch großeDatenmengen mit relativ homogenen Strukturen. Bislang lag das Augenmerk beim Umgang mit Forschungsdaten auf großen Beständen, sog. „Big Science Data“. Auf Grund der großen Datenmengen gibt es hier immer ein Datenmanagement. • Small Science Data(z.B. kleine Excel Tabelle) zeichnen sich durch kleine Datenmengen mit heterogenen Strukturen aus. Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINLEITUNG 11
EINLEITUNG Metadaten -„Daten über Daten“ • Dateninhalt (z.B. Wo?, Wann?) • Datenqualität (z.B. Auflösung) • Datenformat (z.B. RGB, CMYK) • Hersteller (Person, Organisation) • verwendete Referenzsysteme • Art der Weitergabe • Kontaktpersonen • ... 12 Ohne Beschreibung ist der Inhalt unbrauchbar! Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINLEITUNG 12
EINLEITUNG Data Life Cycle 13 Handlungen Personenkreis Phasen Lehrstuhl Ökosysteme und Umweltinformatik 01 · KAPITEL – EINLEITUNG 13
14 02ALLGEMEINE SITUATION Lehrstuhl Ökosysteme und Umweltinformatik 14
ALLGEMEINE SITUATION Informationen &Geodaten im öffentlichen Sektor Im europäischen Rahmen werden jährlich etwa 10 Mrd. Euro für Informationen des öffentlichen Sektors investiert. Davon entfallen ca. 50% auf Geoinformationen (IMAGI 2007). Durch mangelnde Koordination und aus Unkenntnis über Umfang, Qualität, Aktualität und Verfügbarkeit von vorhandenen Datenquellen werden Geodaten jedoch oft mehrfach erhoben oder gekauft. Mit öffentlichen Mitteln erhobene Daten sollten unbeschränkt für die Öffentlichkeit verfügbar sein (Open Access). 15 Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 15
ALLGEMEINE SITUATIONDatenhaltung 16 ??? Unterschiedliche Def. der Langzeit-Datenhaltung: Informatiker: > 5 JahreDFG: > 10 JahreSFB: > 25 Jahre vom Start Ingenieure: > 30 JahreLinguisten: > 100 Jahre „Million years later…“ (bis 10 Jahre danach) Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 16
ALLGEMEINE SITUATION “good scientific practice“ 17 DFG: „Empfehlung 7 Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.“ Quelle: http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_0198.pdf • Alle Schritte müssen als Grundlage wiss. Arbeit nachvollziehbar sein. • Primärdaten müssen persistent und wiederfindbar aufbewahrt werden. • Fachspezifisches Organisationskonzept zur Datenhaltung ist erforderlich • „Open Access“ - Daten für die Öffentlichkeit. • Datenschutz, Urheberrechte und Zugriffsrechte müssen beachtet werden. • Die Speicherung sollte im Rahmen definierter Standards erfolgen. Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 17
18 ALLGEMEINE SITUATION Data Policies (DP) - Allgemein • Für den wissenschaftlichen Umgang mit Daten müssen allgemeingültige Regeln definiert werden, um eine gute wissenschaftliche Praxis (GwP) einzuhalten und den offenen Zugang zu Daten zu gewährleisten (OA).Die Regeln (DP) sollten fest verankert sein: • im alltäglichen Arbeitsablauf & IT, • in Dienstanweisungen, • in Studienordnungen… Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 18
19 ALLGEMEINE SITUATION Data Policies (DP) - Probleme • Akzeptanz bei Personal / Anreize • Zusätzlicher Aufwand (Dilemma der Prioritäten) • Small Science Data (Aufwand / Datenmenge) • Integration in Arbeitsabläufe (Workflow und IT) • Schneller Fortschritt in IT (Kompatibilität, Standards) • Interoperabilität (Austausch von Metadaten) • Wer trägt Verantwortung für Datenhaltung • Allgemeine Rechtsgrundlagen, Richtlinien, Arbeitsanweisungen Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 19
20 ALLGEMEINE SITUATION Data Policies (DP) - Lösungsansätze • Sensibilisierung der Mitarbeiter für Datenhaltung und Metadatenerfassung. • DFG gibt 5% Aufschlag der Förderung für Datenhaltung. • Verankerung als Teil von Dienstanweisungen / Studienordnung, … • Eingabe der Studienarbeit / Veröffentlichung in Informationssystem könnte Pflicht sein. • Geeignete Werkzeuge (FOSS) zur Datenhaltung. • Einhaltung von Standards und zukunftsorientierten Technologien. • Digital Object Identifyer (DOI): Internationale eindeutige Nummer für digitale Daten (kostenpflichtig, aber nonprofit). Kostenlose Alternativen zu DOI bestehen Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 20
21 ALLGEMEINE SITUATION Beispiel fürProjektanforderungen aus einem SFB • a) Aufbau einer Datenbank:zur Speicherung der im Projekt anfallenden Forschungsdaten einschließlich der Vergabe von Metadaten. Die Interoperabilität mit weiteren relevanten internen oder externen Datenrepositorien soll dabei sichergestellt sein. • b) Pflege und Erschließung von Forschungsdaten: Implementierung und Entwicklung von Techniken und Verfahren zur Pflege und Erschließung von Informationen sowie Verknüpfung der Forschungsdaten mit anderen Datensystemen auch außerhalb des Verbundes, bzw. Einbettung in diese (Referenzierung von Daten). • c) Nachnutzung von Forschungsdaten: Das Datenspeicherungssystem ist so aufzubauen, dass die Nachnutzbarkeit der Daten ermöglicht wird. Dies kann durch die Implementierung oder Entwicklung von Interoperabilität bzw. Schnittstellen der Retrival- und Referenzierungsverfahren oder sonstigen Softwarelösungen und Techniken mit Datenbanksystemen (Fachdatenbanken, Online-Kataloge u.ä.), die außerhalb des Verbundes bestehen und von den jeweils einschlägigen Disziplinen genutzt werden, geschehen. Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 21
ALLGEMEINE SITUATION Prinzipielle Ziele für Projekte Erstellung der Data Policy für ein Projekt Suchfunktion nach Informationen über georeferenzierte Metadaten Unterstützung des Projektmanagements durch IT-Infrastruktur Datenaustausch zwischen den Projektpartnern Langzeitdatenhaltung Öffentlicher Zugang (OA) Verbund mit anderen Nodes / Netzwerken Zukunftsorientiert / Nachhaltigkeit 22 Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 22
ALLGEMEINE SITUATION IT-Ziele Wo möglich – open source Bereitstellung eines Servers (Hard-/Software) zur Datenhaltung Benutzerfreundlichkeit und intuitive Bedienung Optimierung der Konfiguration und Struktur Cloud Computing Architecture Ausfallsicherheit Backupstrategie Sicherheitsstrategie (Firewall, etc.) Einhaltung von Standards in der IT Semantic Web 23 Keine „out of the box“-Lösungen! Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 23
ALLGEMEINE SITUATION Projektdaten imGewässermanagement 24 • Hydrologische Daten • Gewässerökologische Daten • Daten der Landnutzung • Sozioökonomische Daten • Daten zur Energiegewinnung aus Wasserkraft • Daten zur Wasserbewirtschaftung nach Menge und Güte • Administrative Daten • Daten zur Gewässerpolitik Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 24
ALLGEMEINE SITUATION Metadaten imGewässermanagement 25 • Gewässer • Wassernutzungen • Gewässerbelastungen • Kopplung von Atmosphäre und Gewässer • Datenerfassung • Zusammenführung unterschiedlicher Daten und Datenspeicherung • Entscheidungsunterstützungssysteme • Entwicklung politischer und ökonomischer Instrumente • System Wasser und Gesellschaft • System der Wassernutzer Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 25
ALLGEMEINE SITUATION Metadaten imGewässermanagement 26 Lehrstuhl Ökosysteme und Umweltinformatik 02 · KAPITEL – ALLGEMEINE SITUATION 26
27 03GEO NETWORKOpen Source Lehrstuhl Ökosysteme und Umweltinformatik 27
GEO NETWORKFree and Open Source Software (FOSS) Der Einsatz von Free and Open Source Software (FOSS) ist in der heutigen Zeit eine vielfach diskutierte Thematik in Wirtschaft, Wissenschaft und öffentlichen Einrichtungen. Besonders im hochschulbasierten Einsatz stellt die Verwendung von FOSS eine attraktive Alternative zurkostspieligen Lizenznahme proprietärer Software dar. Dies hat vor allem die folgenden Gründe: Weltweite Entwicklergemeinde, geringere Kosten, kurzer Updatezyklus, Unabhängigkeit und Unterstützung, validierte Quelltexte. 28 Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 28
GEO NETWORKEinführung GNOS ist ein auf internationalen Standards aufbauendes Informations-Management-System (IMS) mit Netzwerk-Interoperabilität, Metadaten- und Geo-Referenzierung. Benutzergruppen / Benutzerrollen ermöglichen die Trennung von Administration des Systems, Dateneingabe / -pflege und die Zugriffskontrolle auf Daten. Es wurde ursprünglich 2001 von der UN entwickelt und seit dem kontinuierlich von vielen Partnern weiterentwickelt. Inzwischen wird es weltweit (oftmals in einem Netzwerk aus verschiedenen GNOS Servern) von vielen großen und kleinen Organisationen erfolgreich eingesetzt. 29 Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 29
GEO NETWORKSystemvoraussetzungen Hardware / Software Schneller Server mit mind. Dual/Quad Core (etc.) >500 GB / 1TB HDD, >4 GB RAM. Cloud-Server (optional): der dynamisch mit den Anforderungen wachsen kann. Betriebssystem: Windows Server 2003 / 2008 oder Linux. Erweiterungen: MySQL, PHP, Tomcat, Java SDK. Optional: ArcIMS (GisWebServer). 30 Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 30
GEO NETWORKMain-features 31 • schnelle Suche nach lokalen und verteilten raumbezogenen Daten, • up/- download von Daten und Dokumenten (z.B. Maps, PDF, Excel,…), • interaktiver Map-Viewer mit Karten von weltweiten Servern, • Map- & Layer- Export als PDF, • Onlinebearbeitung von Metadaten mit leistungsstarkem Templatesystem, • Datenaustausch und Synchronisation von Metadaten auf verteilten Servern (Harvesting), • Gruppen- und Benutzermanagement, • Zugriffskontrolle auf Datenquellen, • interne / externe Thesauri Kataloge für Schlagwörter. Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 31
GEO NETWORKStandards für Meta Daten und Datenaustausch Dublin Core (DC)Metadatavon der International Organization for Standardization (ISO) Content Standard for Digital Geospatial Metadata (CSDGM)von dem Federal Geographic Data Committe (FGDC) / (ESRI FGDC) ISO 19115Die ISO 19115 "Geographic Information – Metadata" definiert einen international gültigen Standard zur Beschreibung geographischer Informationen und zugehöriger Dienstleistungen. ISO19139Mit dem XML-Schema von ISO 19139 wird eine Grundlage geschaffen, auf deren Basis Metadatensätze einheitlich zwischen verschiedenen Systemen austauschbar sind. Infrastructure for Spatial Information in the Europ. Community (INSPIRE)Seit 2007Europäische Geodaten-Basis mit integrierten raumbezogenen Informationsdiensten 32 Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 32
GEO NETWORKMetadaten nach ISO 19115 33 Metadaten zur Beschreibung von Geodaten nach ISO 19115(vereinfacht, grün=obligatorisch) verändert nach Senkler et al. (2004) Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 33
GEO NETWORKEingabeschema für Metadaten 34 Ablauf der Metadatenerfassung je nach Ausgangssituation Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 34
GEO NETWORKBenutzerverwaltung 35 • Benutzerverwaltung • mit detaillierter Rechteregelung, • hohe Sicherheit, • Einhaltung des Urheberrechts. • Benutzerrechte • • einzelne Personen, • • die eigene Einrichtung, Abteilung oder Fakultät, • • die gesamte Einrichtung, • • der Rest der Welt. • Gruppenrechte • • Einsicht in die Metadaten, • • Einsicht der Geodaten über den integrierten WMS-Viewer, • • Zugriff auf die Geodaten direkt über Webservices, • • Download der Geodaten. Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 35
GEO NETWORKThesaurus-Support 36 • Meta-Daten-Eingabe: • Schlagwortkatalog für die Eingabe der Metadaten nach ISO und Dublin Core. • Admin: • Import, Export, Bearbeitung, eigene Thesauri. • Suchfunktionen: • Keywords (mit jeweiliger Trefferanzahl) werden bei Suche vorgeschlagen. • Thesauri-Typen: • Extern: importierte Thesauri können mit Schreibschutz von anderen Knoten importiert werden. Die Thesauri werden dann von den anderen Knoten gemanaged. • Lokal: Ein lokal gespeichertes Thesaurus kann selbst bearbeitet werden. Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 36
GEO NETWORKNetzwerke 37 Mit GeoNetwork sind verschiedene Netztypen und Zugriffsszenarien zu realisieren: • Abgeschlossenes,kleinesNetzwerk nur für einen bestimmten Personenkreis (mit feinen Benutzerrechten für Eingabe und Lesen der Metadaten bzw. Download der Primärdaten). • Abgeschlossenes Netzwerk für hierarchisch gegliederte Organisationsstrukturen. • Weltweites Netzwerk im Verbund mit fremden Netzwerkknoten (Eigentümer der Daten hat exklusive Schreibrechte). Intranet www A B A C B A D C Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 37
GEO NETWORKHarvesting – Interoperabler Datenaustausch verschiedener Knoten (Nodes) 38 1. Andere GeoNetwork Nodes (ab Version 2.1) 2. alte GeoNetwork Nodes (bis Version 2,0) 3. WebDAV Server (Web-based Distributed Authoring and Versioning) 4. CSW 2.0.1 oder 2.0.2 Katalog-Server (Catalog Service Web-Spezifikationen) 5. OAI-PMH Server (Open Archives Initiative Protocol for Metadata Harvesting) 6. OGC Server (Open GIS Consortium) A B C E 1. Node (A) erzeugt Meta Daten (a) 2. Node (B) bezieht (a) von (A) 3. Node (C) bezieht (a) von (B) 4. Node (D) bezieht (a) von (A), (B) and (C) 5. Node (E) und (A) kommunizieren bidirektional D Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 38
39 04LIVE PRÄSENTATIONGeoNetwork Opensource Lehrstuhl Ökosysteme und Umweltinformatik 39
GEO NETWORK 40 Lehrstuhl Ökosysteme und Umweltinformatik 03 · KAPITEL - GEO NETWORK 40
41 Lehrstuhl Ökosysteme und Umweltinformatik 41
42 Lehrstuhl Ökosysteme und Umweltinformatik 42
43 05SCHLUSSBEMERKUNGEN Lehrstuhl Ökosysteme und Umweltinformatik 43
SCHLUSSBEMERKUNGEN 44 • Fazit: • Datenhaltung ist angesichts des allgemein wachsenden Datenvolumens eine zentrale Aufgabe in fast allen Bereichen der Wissenschaft und Forschung. • Diese Aufgabe erfordert aufgrund der Komplexität und Verantwortung eine eigenständige Position im Organisationskonzept. • Anwendungsbereiche: • Datenhaltung für alle Daten mit geografischem Bezug… • Forschungsprojekte, Drittmittelprojekte, • Lehrstühle / Fakultäten / Universitäten. • Weiterentwicklung: • Semantic Web („Maschinenverständliches Internet“), • Datenkomprimierung, Indexoptimierung der Primärdaten / noSQL, • Datenanalyse, Metadaten-Analyse, • Reporting-Tools, Decision-Support-Systeme (DSS). Lehrstuhl Ökosysteme und Umweltinformatik 05 · KAPITEL - FAZIT 44
Vielen Dank!Mirko Filetti Lehrstuhl Ökosysteme und Umweltinformatik 45