720 likes | 939 Views
UE BASES DE DONNEES OCEANOGRAPHIQUES. Introduction à la gestion de données océanographiques. V. Tosello (IDM/SISMER) http://www.ifremer.fr/sismer sismer@ifremer.fr. OBJECTIFS DE L’UE. Cours 1 : V. Tosello
E N D
UE BASES DE DONNEES OCEANOGRAPHIQUES Introduction à la gestion de données océanographiques V. Tosello (IDM/SISMER) http://www.ifremer.fr/sismer sismer@ifremer.fr
OBJECTIFS DE L’UE • Cours 1 : V. Tosello • Connaissances générales en gestion de données pour faciliter la recherche et l’utilisation des données • Cours 2 : M. Fichaut • Les bases de données d’océanographie physique Ifremer • Cours 3 : V. Tosello + M. Fichaut • Les bases de données de géologie et géophysique Ifremer • L’accès aux données par le portail Web Nautilus du SISMER • Cours 4 : Visite de l’IFREMER • Cours 5 : G. Maudire + M-C. Fabri • Les bases de données d’environnement Ifremer • Les Systèmes d’Information Géographique • La gestion de données en biodiversité marine
SISMER (Systèmes d’Informations Scientifiques pour la MER) • Désigné Centre National de Données Océanographiques par le programme international d’échange d’informations et de données océanographiques (IODE) de la Commission Océanographique Intergouvernementale de l’UNESCO. • Missions: • Développer et exploiter des systèmes d’informations et des bases de données marines • Etablir des normes de qualité à respecter pour l’archivage et la gestion des données marines • Maintenir un inventaire des données marines en France, leurs responsables et leurs conditions d’accès • Représenter l’IFREMER au sein des organisations nationales et internationales impliquées dans la gestion de données marines • Collaboration avec le service d’ingénierie informatique de l’IFREMER
SISMER (Systèmes d’Informations Scientifiques pour la MER) • Activités: • Opérer la banque nationale océanographique • Mettre à disposition de la communauté les produits de données d’intérêt général publiés par divers organismes • Participer aux structures de gestion de données des programmes de l’IFREMER qui incluent plusieurs projets nationaux et internationaux • Thématiques: • Information et catalogues • Géophysique et Géologie Marine • Physique et bio-chimie marine • Données temps réel de l’océanographie opérationnelle • Données de référence géographiques
SISMER(Systèmes d’Informations Scientifiques pour la MER) http://www.ifremer.fr/sismer
ATTENTES DE LA SOCIETE • Surveillance, usage et gestion de la zone côtière • santé publique : qualité des eaux • environnement : qualité des biotopes côtiers • Surveillance et exploitation des ressources aquacoles • Exploitation durable des ressources halieutiques • Exploration et exploitation des fonds océaniques • Étude de la variabilité climatique : Océanographie Opérationnelle
BESOINS ET ENJEUX • Besoin: • Demande croissante de données de tout type, cohérentes, validées, normalisées, intégrées, accessibles sans délai • Enjeu: assurer la sécurité, la qualité et l’accessibilité des données • Éviter la perte ou l’altération des données • Assurer une certaine cohérence et comptabilité aux jeux de données • Avoir un accès facile aux données de différentes sources • Préparer des jeux de données intégrées et des produits de synthèse
DONNEE OCEANOGRAPHIQUE • Mesure ou description d’un échantillon oud’un phénomèneprélevé ouobservé dans le milieumarin: • colonne d’eau : physique, chimie • fond de la mer et de son sous-sol : géophysique, géologie • monde vivant : biologie • localisée dans l’espace (position géographique X,Y, Z) et, le cas échéant, dans le temps (T)
METADONNEES • « Données décrivant des données » • Il s’agit de toute l’information permettant de décrire les caractéristiques d’un jeu de données à l’exclusion du contenu même de ces données: • Informations d’identification (intitulé, description, généalogie…) • Informations techniques (codification, qualité, mode de production, période de validité, emprise géographique) • Informations administratives (conditions d’accès et de diffusion) • Informations complémentaires (point de contact…)
METADONNEES • Revient à se poser les questions suivantes sur les données: • QUOI ? • OU? • QUAND? • QUI? • COMMENT?
METADONNEES • Intérêts: • Fournir à l’utilisateur du jeu de données toute l’information utile à son bon usage. • Garder la mémoire des informations utiles sur les données, à des fins d’utilisation ultérieure. • Aider à la recherche de données
SYSTEMES DE COORDONNEES • Définition: • Il s’agit d’un référentiel dans lequel on peut représenter des éléments dans l’espace. Il permet de se positionner sur l’ensemble du globe terrestre grâce à des coordonnées. • ANGULAIRES (coordonnées géographiques) • Latitude, Longitude / repère géodésique • METRIQUES (coordonnées projetées ou planes) • X,Y (projection) • Ex: Projections Lambert, Mercator, etc…
SYSTEMES GEODESIQUES • Représentation de la forme de la Terre: • Sphère: trop imprécise • Géoïde: trop complexe • Ellipsoïde: la plus adaptée Sphère Géoïde Ellipsoïde
SYSTEMES GEODESIQUES • Un système géodésique peut être défini par: • Un centre et trois axes orthonormés Ox, Oy, Oz définis par leur orientation. Ox et Oy se trouvent dans le plan équatorial terrestre et Oz est orienté suivant l’axe de rotation terrestre. • -> Coordonnées cartésiennes: X, Y, Z • Un ellipsoïde de révolution choisi de manière à approcher au mieux le géoïde (centre, demi-grand axe, aplatissement). • -> Coordonnées géographiques: latitude, longitude
SYSTEMES GEODESIQUES • Systèmes locaux – France Métropolitaine • NTF (Nouvelle Triangulation de la France) • Cartes IGN • Topographie et hydrographie • Système Européen Compensé 1950 (ED50) • Cartes marines SHOM • RGF (Réseau Géodésique Français) équivalent au WGS84 • Systèmes mondiaux • WGS (World Geodetic System) • « 1984 » Global Positioning System (GPS)
SYSTEMES DE COORDONNEES GEOGRAPHIQUES • Parallèles et Méridiens • Un méridien est un cercle imaginaire tracé sur le globe terrestre passant par les pôles. • Un parallèle est un cercle imaginaire tracé sur le globe terrestre parallèle à l’équateur et perpendiculaire aux méridiens.
SYSTEMES DE COORDONNEES GEOGRAPHIQUES • Latitude:valeur angulaire exprimant le positionnement nord-sud d’un point sur la Terre par rapport au plan équatorial. Mesurée le long du méridien de la verticale du lieu au plan équatorial. • Positive vers le Nord, Négative vers le Sud. • Valeur entre -90° et +90°. • Longitude:valeur angulaire exprimant le positionnement est-ouest d’un point sur la Terre par rapport à un méridien origine. Mesurée le long d’un parallèle, de la verticale du lieu au plan méridien d’origine. • Positive vers l’est, négative vers l’ouest. • Valeur entre -180° et 180°.
SYSTEMES GEODESIQUES • Systèmes géodésiques et ellipsoïdes associés • Exemple: coordonnées d’un même point dans différents référentiels géodésiques
SYSTEMES DE COORDONNEES PROJETEES • Différents types de projection • Projection cylindrique (ex: Mercator) • Projection conique (ex: Lambert) • Projection azimutale
NIVEAUX DE REFERENCE VERTICALE • Il existe de nombreuses références • Zéro IGN • Zéro hydrographique (niveau des plus basses mers) • Altitude (hauteur par rapport au géoïde) • Hauteur ellipsoïdale (hauteur par rapport à l’ellipsoïde) Zéro Hydro
COORDONNEE TEMPORELLE • Le Temps Universel (TU) est une mesure du temps basée sur la rotation de la Terre. Peut être défini (avec quelques imprécisions) comme le temps Local de Greenwich, UK, au meridien zéro. • Le Temps Local est déterminée à partir du TU et est fonction de la localisation. France : hiver TU + 1, été TU + 2 • Le Temps Universel Coordonnée (UTC) est l’échelle de temps adoptée comme base du temps civil international. C’est la référence employée sur les navires Ifremer/Genavir.
BASES DE DONNEES • Une base de données est un ensemble structuré et organisé permettant le stockage de grandes quantités d’informations afin d’en faciliter l’exploitation (ajout, mise à jour, recherche). Une BD se traduit physiquement par un ensemble de fichiers sur disque. • La gestion et l’accès à une base de données sont assurés par une ensemble de programme qui constituent le système de gestion de base de données. • Ex: Oracle, Microsoft Access, MySQL, SQL Server, etc.
BASES DE DONNEES • Base de données hiérarchique: base de données dont les enregistrements sont stockés dans une structure arborescence où chaque enregistrement n’a qu’un seul possesseur. (obsolète) • Base de données relationnelle : base de données dont les données sont stockées dans des tables que l’on peut mettre en relation. • Bases de données spécifiques: • Base de données géographiques
BASES DE DONNEES • Interrogation et manipulation d’une base de données : • langage informatique • Ex: SQL Structured Query Language Select nom from client where entreprise=‘IFREMER’; • interfaces • Ex: Microsoft Access, ArcMap (SIG)
SYSTEME D’INFORMATIONS • Ensemble des éléments/moyens (organisations, acteurs, procédures, systèmes informatiques) participant à la gestion, au stockage, au traitement, au transport et à la diffusion de l’information. Le système reçoit et centralise des informations provenant de différentes sources. Il les traite, les transforme, les stocke, les redistribue en fonction des besoins des utilisateurs.
DE L’ACQUISITION A L’EXPLOITATION Temps Réel T. Différé
CONTRÔLE QUALITE • Objectifs • Documenter les données et formats pour qu’ils soient utilisables • Trouver d’éventuelles anomalies bloquant les traitements ultérieurs • Rendre les données de différentes sources cohérentes et comparables • Méthodologie • Contrôles qualité automatiques et visuels assistés par des systèmes experts: métadonnées et données • Résultat • Un indicateur de qualité (‘flag’) est attaché à chaque valeur numérique • En cas d’anomalie • Le fournisseur de données est contacté pour correction ou intervention sur les capteurs éventuelles ou élimination de la donnée
CONTRÔLE QUALITE • Étapes du contrôle qualité: • Contrôles automatiques • Bornes de valeurs (valeur impossible) • Statistiques (valeur improbable) • Danger d’exclure un phénomène inattendu • Recherche de doublons • Contrôles manuels: Experts • Apport ‘humain’ (connaissance du sujet) • Impliquent souvent la création de graphiques • Utilisations de flags • Il ne faut jamais effacer une donnée, il se peut que ce soit notre interprétation de la réalité qui soit fausse… • Complétude des données, cohérence des données, détection des erreurs et des biais, vérification des références spatiales et temporelles
NIVEAUX DE TRAITEMENT • Niveau instrumental, niveau physiqueCe sont en général les niveaux de production des « données brutes », en sortie des systèmes d’acquisition • mesure instrumentale (niveau < 1) • mesure physique (niveau < 2) Ex : mesure de la profondeur 1/ Temps de propagation A/R d’une onde émise par un sondeur et qui se réfléchit sur le fond 2/ Hauteur d’eau H = V x T/2 V = vitesse du son dans l’eau H
dH1 dH2 Profondeur 0 m Sonde NIVEAUX DE TRAITEMENT • Niveau « géophysique » (>=2) La mesure physique est corrigée des variations : • liées à la plateforme de mesure et à ses mouvements (pilonnement du bateau par exemple : dH1) • liées au milieu naturel (la marée par ex. : dH2) H = V x T/2 Profondeur = H – dH1Sonde = Profondeur – dH2
2775 2767 2756 2745 2725 2750 2730 2745 2734 NIVEAUX DE TRAITEMENT • Niveau « produit » (>=3)Données interprétées : modèle maillé , cartes, isolignes … Ex :Modèle numérique de terrain (MNT) Sélection des sondes SX,Y SX,Y Si,j Affectation des sondes aux nœuds (i,j) du modèle 2720 Si,j = f (SX,Y)
2750 m NIVEAUX DE TRAITEMENT • Niveau « produit » Isobathes
STOCKAGE DES DONNEES • Une fois que les données ont été qualifiées et traitées elles vont enfin pouvoir être archivées. • Différentes méthodes en fonction du volume des données et du type des données: • Archivage dans une base de données • Archivage sous forme de fichiers sur disque • Dans ce cas, les méta-données sont archivées dans une base de données • Notamment le nom et l’adresse des fichiers • La description des données archivées • Date, heure, position, responsable, campagne de collecte …..
Quelques exemples de tailles de fichiers • Un livre de poche 100 caractères/ligne * 100 lignes * 200 pages= environ 2Mo • une photo numérique (non compressée TIFF) 6 millions de pixels = environ 18Mo • une photo numérique (compressée JPEG) 6 millions de pixels = environ 200 Ko • Campagne SISMANTILLES sur l’ATALANTE en 2007 (durée 1 mois): • 200 Mo de données d’ADCP (courantomètres) • 500 Go de données de sismiques • Rappel: 1 Go = 1000 Mo = 1 000 000 Ko = 10^9 octets
SUPPORTS INFORMATIQUES • Disques durs • Enregistrement permanent (sauf panne, nécessité de sauvegarde) • Informations organisées en fichiers et répertoires • Accès direct à l’information • Tailles courantes de 40Go à 260Go (jusqu’à 1024Go sur disques haut de gamme « serveur »)
SUPPORTS INFORMATIQUES • Supports « bandes magnétiques » (Robot d’archivage) • Grandes capacités • Supports souvent utilisés pour de l’archivage de longue durée • Supports également utilisés pour les sauvegardes des disques durs • Pas d’accès direct: il faut dérouler la bande pour atteindre les informations • Actuellement Super DLT (160Go), LTO-4 (800Go)
SUPPORTS INFORMATIQUES • Autres supports • CD/ROM, DVD/ROM • comparable à un disque dur (organisation) • Tailles de 700Mo (CD) à 9Go (DVD) • Clé USB • Cartes mémoires • Disquettes, cassettes Exabyte (obsolètes)
FORMATS DE FICHIERS On distingue deux types de fichiers: • Les fichiers Texte • Définition: fichier dont le contenu représente uniquement une suite de caractères informatiques. ex.: .txt • S’ouvre avec un simple éditeur de texte (bloc-notes…). • Il existe des fichiers textes formatés (.csv, .html). • Les fichiers Binaires • Définition: fichier informatique qui n’est pas assimilable à un fichier texte. • Pas directement lisible par un être humain, nécessité d’utiliser un logiciel spécifique. • Exemples: fichiers images (jpeg), fichiers de musique (mp3).
FORMATS DE FICHIERS • Avantages des fichiers binaires: • Très compacts pour des données très volumineuses • Rapides pour les calculs et les écritures sur disque • Désavantages des fichiers binaires: • Pas directement lisible par un être humain (logiciel spécifique)
FORMATS DE FICHIERS • Formats auto-descriptifs (texte ou binaire) • En-tête décrivant le contenu du fichier et listant quelques métadonnées pouvant servir à l’utilisation du fichier. • Exemples: • MEDATLAS (ASCII auto-descriptif) utilisé pour les données de profils verticaux (paramètre de référence : Pression) ou de séries temporelles (paramètre de référence : Date/Heure) • NETCDF – Network Common Data Form (Binaire auto-descriptif)
REGLES DE DIFFUSION • Accord formel entre les partenaires qui échangent leurs données • Décrire les droits et les obligations • Du fournisseur (limite d’utilisation, validité) • Du bénéficiaire des données (citation, reconnaissance) • Considérations à prendre en compte • Données du domaine public ou privé • Respect de la confidentialité
Point Line Polygon NORMALISATION - STANDARDISATION • Normes pour les métadonnées • Données d’observations de la terre Norme ISO 19115 • Description d’objets géographiques Norme OpenGIS GML • ISO (International standard Organization) • Standardisation des procédures de contrôles qualité, des formats de données, etc…