200 likes | 355 Views
Qualitätskontrolle der IPCC-AR5 Daten. Martina Stockhause , Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg. DACH2010, 24.09.2010. Überblick. CMIP5 / IPCC-AR5 CMIP5 Infrastruktur IPCC-AR5 Qualitätskontrollen. Martina Stockhause et al. DACH2010. 24.09.2010. 2 / 20.
E N D
Qualitätskontrolleder IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010
Überblick • CMIP5 / IPCC-AR5 • CMIP5 Infrastruktur • IPCC-AR5 Qualitätskontrollen Martina Stockhause et al. DACH2010 24.09.2010 2 / 20
CMIP5 / IPCC-AR5 Martina Stockhause et al. DACH2010 24.09.2010 3 / 20
CMIP5 / IPCC-AR5 in Zahlen Coupled Model Intercomparison Project (CMIP5) • Teilnehmer:ca. 20 teilnehmende Modellierungszentrenmit ca. 40 Modellkonfigurationen (i.W. versch. Auflösungen) • Experimente:60 Experimente mit t.w. mehreren Realisationen (Ensemble) über ca. 90 000 Modelljahre • ca. 2 Mio. Datensätze von ca. 400 Experimenten • Datenumfang: • ca. 10 PByte output, • davon ca. 2 PByte requested und • ca. 1 PByte replicated : IPCC-AR5 Martina Stockhause et al. DACH2010 24.09.2010 4 / 20
Datenstruktur: Datenformat Verwendete Standards: • Format: netcdf3 (selbst-beschreibend) • Climate and Forecast (CF): Konvention zur Beschreibung von wiss. Parametern • gridspec:Konvention zu Gitterdefinitionen • Controlled Vocabulary (CMIP5): • DRS (Data Reference Syntax) + digital Identifierfür die File-Identifizierung • CMOR2: Tool zum Eintrag/Kontrolle in Datenheadern Martina Stockhause et al. DACH2010 24.09.2010 5 / 20
Datenstruktur: DRS Data Reference Syntax (DRS): Bsp.: CMIP5.output.MPI-M.ECHAM6-MPIOM-LR.rcp45.mon.atmos.v1.tas.r1i1p1.tas_Amon_ECHAM6-MPIOM-LR_rcp45_r1i1p1.nc Martina Stockhause et al. DACH2010 24.09.2010 6 / 20
CMIP5 Infrastruktur Martina Stockhause et al. DACH2010 24.09.2010 7 / 20
ESGF Partner - PCMDI, BADC, DKRZ : • ESG Gateway • Daten-Replikation des IPCC-AR5-Subsets der CMIP5-Daten • Verteilte Qualitätskontrollen der Daten für Level 2 ESGF CMIP5 Infrastruktur:Earth System Grid Federation (ESGF) Martina Stockhause et al. DACH2010 24.09.2010 8 / 20
CMIP5 Infrastruktur:Earth System Grid Federation (ESGF) Aufgaben der ESGF-Partner: • PCMDI: • BADC: • WDCC / DKRZ: Daten- und Sicherheits-Infrastruktur ESG Metadaten-InfrastrukturMETAFOR / CIM Qualitätskontrollen undDatenpublikation (STD-DOI) Martina Stockhause et al. DACH2010 24.09.2010 9 / 20
CMIP5 Qualitätskontrollen Martina Stockhause et al. DACH2010 24.09.2010 10 / 20
Statistical or RecordChecks of Data STD-DOI:Double Check of Dataand Metadata /Author Approval Scientific Control ofQuestionnaire Input Qualitätskontrollen: Überblick Martina Stockhause et al. DACH2010 24.09.2010 11 / 20
Qualitätskontrolle: QC Level 1 QC Level 1 (automated conformance checks passed): • CMOR2 checks: • ESG Publisher checks: • Metadata checks: DRS syntax checkAxis checks Variable checks (CF standard name, unit)cross-check of file name vs. netcdf header File readable and of size>0 bytesaxis and variables recognizabletime is monotonic, calendar recognizable METAFOR / CIM conformance (technical validity of questionnaire entries) Martina Stockhause et al. DACH2010 24.09.2010 12 / 20 12 / 16 12 / 16
Qualitätskontrolle: Level 2 THREDDS Data Server Metafor / CIM Questionnaire MD on model+simulation MD on data MD Quality Checks L2 Data Quality Checks L2 QC DB MetadataRepository File System Data Node Metadata Data in prescribed DRS Syntax Information MD Quality MD Data MD Martina Stockhause et al. DACH2010 24.09.2010 13 / 20
Qualitätskontrolle: QC Level 2 QC Level 2 (subjective quality control passed): Performed on IPCC-AR5 subset of CMIP5 data at all ESGF partners • Data checks: • Check of statistical global values and additional DRS checks • Record checks against predefined thresholds for data unchecked by 1. • Subjective metadata control by scientist • Metadata checks: Martina Stockhause et al. DACH2010 24.09.2010 14 / 20
Qualitätskontrolle: QC Level 2 Daten QC level 2 checks on data (statistical checks): • Files Check against table with CMIP5 requirements:- name- unit- cf standard name- field dimensions • Time Values Check:- time step ≥ 0- no identical time points • Variables Checks on global time series:statistical values: average, standard deviation, minimum, maximum- check for constant fields and filling value fields- check for runaway points Martina Stockhause et al. DACH2010 24.09.2010 15 / 20
Qualitätskontrolle: L3/STD-DOI Publication TIB:DOIRegistrationAgency Data DOI Target Pageaccess todata and metadata Filesystem THREDDS Data Server STD-DOI Catalogue Metafor / CIM MD on model+simulation +data+quality MD on data QC DB Longterm Archive STD-DOI MD Information MD Data Node Metadata QualityMD Data MD InformationMD Data Quality Checks L3 double checks, cross checks, author approval WDCC:DOI Publication Agency Martina Stockhause et al. DACH2010 24.09.2010 16 / 20
Qualitätskontrolle: QC Level 3 / STD-DOI QC Level 3 (approved by author): • Subjective controls (double checks) of data and metadata • Author check and approval of data and metadata • STD-DOI publication of data:persistent identifiers DOI/URN assigned to persistent dataas citation direction E.g. doi:10.1594/WDCC/CMIP5_MXELr4 Martina Stockhause et al. DACH2010 24.09.2010 17 / 20
Durchführung durch die drei ESGF-Partner: PCMDI, BADC, WDCC/DKRZ; Level 3 nur am WDCC • Am Ende der Qualitätschecks steht die Datenpublikation nach STD-DOI (dataCite), die eine Zitiervorschrift für die Daten liefert. • Metadaten des Questionnaires, aus den Datenheadern und aus den Qualitätskontrollen werden bei der STD-DOI Publikation zusammengeführt. CMIP5 Qualitätskontrollen: Zusammenfassung CMIP5 Infrastruktur: • Verteilte Datenhaltung in Grid Infrastruktur (ESG) • Detaillierte Metadaten (Metafor – CIM) über Modelle, Simulationen und Qualität. • Qualitätschecks (Level 1 bis 3) mit Einfluss auf die Zugriffsrechte Martina Stockhause et al. DACH2010 24.09.2010 18 / 20
WDCC Metadata Concept Relational DB RDF XML SIMULA-TION ACCESS TOPIC ENTRY MODEL PLAT-FORM WDCC GUI Scientific Portal (e.g. IS-ENES) CERA2 Data Model Information Model • performant • easy-to-use • complete • flexible 19 / 20
http://www.wdc-climate.de http://cmip-pcmdi.llnl.gov/cmip5/ Martina Stockhause et al. DACH2010 24.09.2010 20 / 20