260 likes | 370 Views
Mobilisierung von primären Biodiversitätsdaten: Das BioCASe Protokoll und seine Anwendung in internationalen Netzwerken. Anton Güntsch Botanischer Garten und Botanisches Museum Berlin-Dahlem Abt. Biodiversitätsinformatik u. Labors. Primäre Biodiversitätsdaten. Wissenschaftliche Namen Taxa
E N D
Mobilisierung von primären Biodiversitätsdaten: Das BioCASe Protokoll und seine Anwendung in internationalen Netzwerken Anton Güntsch Botanischer Garten und Botanisches Museum Berlin-Dahlem Abt. Biodiversitätsinformatik u. Labors
Primäre Biodiversitätsdaten • Wissenschaftliche Namen • Taxa • Autoren • Referenzen • Sammlungsdaten • Metadaten
Biologische Sammlungen • Naturhistorische Sammlungen (Museen, Universitäten) • Lebendsammlungen (z.B. Botanische und Zoologische Gärten, Bakterienstämme) • DNA Banken • Multimedia Sammlungen • Beobachtungsdatenbanken • …
Nutzen von biologischen Sammlungen • Belege ( z.B. für Namensgebung) • Ausbildung • Kommerzieller Nutzen • Umweltmonitoring • Historische und gegenwärtige Verbreitungen von Organismen • Voraussage von Verbreitungen • …
Sammlungs-Objektdaten • Wer • Wann • Wo • Was
Schaffung eines globalen Netzwerks • Global Biodiversity Information Facility (GBIF) • Biological Collection Access Service for Europe (BioCASE)
Spezifikation auf 2 Ebenen • Protokoll-Ebene abstrakte Anfragesprache für heterogene Datenquellen • Datenebene Spezifikation eines Datenschemas
BioCASe Protokoll • Spezifikation der Struktur von Anfragen und Antworten im Netzwerk.
BioCASe - <capabilities> <?xml version="1.0" encoding="UTF-8"?> <requestxmlns="http://www.biocase.org/schemas/protocol/1.3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.biocase.org/schemas/protocol/1.3 http://www.bgbm.org/biodivinf/schema/protocol.xsd"> <header> <sendTime>2001-09-11T09:30:47-05:00</sendTime> <source>198.14.7.54</source> <type>capabilities</type> </header> </request>
BioCASe - <scan> <?xml version="1.0" encoding="UTF-8"?> <request xmlns="http://www.biocase.org/schemas/protocol/1.3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.biocase.org/schemas/protocol/1.3 http://www.bgbm.org/biodivinf/schema/protocol.xsd"> <header> <sendTime>2001-09-11T09:30:47-05:00</sendTime> <source>198.14.7.54</source> <type>scan</type> </header> <scan> <requestFormat>http://www.tdwg.org/schemas/abcd/1.2</requestFormat> <concept>/DataSets/[…]/ScientificNameAtomized/Botanical/Genus</concept> </scan> </request>
BioCASe - <search> <request> <header> [...] <type>search</type> </header> <search> <requestFormat>http://www.tdwg.org/schemas/abcd/1.2</requestFormat> <responseFormat start="0" limit="50">http://www.tdwg.org/schemas/abcd/1.2</responseFormat> <filter> <and> <like path="/DataSets/DataSet/[...]/TaxonIdentified/NameAuthorYearString">Abies*</like> <or> <like path="/DataSets/[...]/TaxonIdentified/HigherTaxa/HigherTaxon">Pinace*</like> <and> <like path="/DataSets/DataSet/[...]/GatheringSite/Country/CountryName">*Russia*</like> <greaterThan path="/DataSets/DataSet/[...]/ISODateTimeBegin">2002-04</greaterThan> </and> </or> </and> </filter> <count>false</count> </search> </request>
Access to Biological Collection Data • Datendefinition für alle biologischen Sammlungen (lebend, konserviert, Beobachtungen). • Behutsamer Umgang mit kontrollierten Vokabularen und regulären Ausdrücken. • Strukturierte Elementbeschreibungen. • Variable Atomisierung.
Strukturierte Elementbeschreibung <xs:element name="FullScientificNameString" type="String"> <xs:annotation> <xs:documentation>Concatenated scientific name, preferrably formed in accordance with a Code of Nomenclature, i. e. a monomial, bionomial, or trinomial plus author(s) or author team(s) and - where relevant - year, or the name of a cultivar or cultivar group, as fully as possible. </xs:documentation> <xs:appinfo> <sea:FullName>Full scientific name</sea:FullName> <sea:Audience>BioCASE</sea:Audience> <sea:Audience>CODATA TDWG</sea:Audience> <sea:Reviewer/> <sea:ExistingStandard>Darwin Core 2: Scientific Name.</sea:ExistingStandard> <sea:Content/> <sea:Example>Acipenser gueldenstadti Linnaeus 1758</sea:Example> <sea:Rule/> <sea:EditorialNote/> </xs:appinfo> </xs:annotation> </xs:element>
Variable Atomisierung (1) <site> <country>Afghanistan</country> <place>Tangi Gharuh</place> <lat>34.16</lat> <long>69.48</long> </site> <date> <day>21</day> <month>8</month> <year>1952</year> </date>
Variable Atomisierung (2) <site> <text> BRASIL, Rio Grande do Sul: Parque Nacional dos Aparados da Serra, Itaimbezinho (mun. Cambará do Sul). Nas casca de árvore da mata: junto ao canyon. Alt. 1200 m. </text> </site> <date> <text> 16 Apr. 1993 </text> </date>
Datasets Dataset Collection Metadata (description of dataset, contact information, intellectual property rights,... ) Collection Unit Data (observation or specimen records) Dataset ... ABCD - Überblick
Collection Metadata ABCD - Metadaten Original source incl. collection identifier (Source ID) Dataset derivation (data propagation history) • Supplier information (organisation, contact) • Intellectual Property Rights (IPR) • Acknowledgements, Disclaimer, URL etc.
Datasets Dataset Collection Metadata (description of dataset, contact information, intellectual property rights,... ) Collection Unit Data (observation or specimen records) Dataset ... ABCD - Überblick
Collection Unit Data Unit state domain (physical state-specific subtypes) Specimen unit Observation unit ABCD - Unitebene Unit identifier (ID), IPR, Acknowledgements,... Identifications Unit collection domain (domain-specific subtypes) Gathering event and site characteristics + Digital images, Associations, Assemblages, Measurements, Facts,...
Verfügbare Software • PyWrapper • BioCASe Configuration-Tool • BioCASe Query-Tool • UnitLoader: API für BioCASe-konforme Anfragen • User-Interface Software • SchemaViewer, SchemaProcessor, etc.
Eingesetzt von … • BioCASE • GBIF-D • GBIF-International • Species2000 - EuroCAT • Euro+Med • BioCASE Metadata Network • AlgaTerra
Provider Domain Internet Portal Domain Client CORM Query XML http ! JDBC SQL User interface client (Servlet) Unit Data ? Java API ResponseXML http GBIF-D & BioCASE Prototyp Unit wrapper BioCASE protocol Config.files UnitLoader C
BioCASe-Statistik (Stand: 4/2005) • > 65 Provider Installationen weltweit • > 150 Datenbanken abfragbar • > 5.000.000 Datensätze zugreifbar
Vielen Dank! www.biocase.org