360 likes | 459 Views
Concepts de gestion et d' exploitation d'une base de données générique de biologie des populations. Réalisé à l’Inra de Sophia-Antipolis . U.M.R. 1112 Biologie des populations en intéraction U.R.I.H . Unité de recherche intégrée en horticulture. Q’est ce qu’un Data-mart:.
E N D
Concepts degestion et d'exploitationd'une base de donnéesgénériquede biologie des populations • Réalisé à l’Inra de Sophia-Antipolis. • U.M.R. 1112 Biologie des populations en intéraction • U.R.I.H. Unité de recherche intégrée en horticulture 24 Aout 2006 R.Boll, N.Mezencev
Q’est ce qu’unData-mart: • Un data-mart est un magasin de données. • C’ est une base de données décisionnelle structurée et formatée en fonction d'un métier précis ou d'un usage particulier. • L'information y est préparée pour être « consommée » telle quelle. 24 Aout 2006 R.Boll, N.Mezencev
Le data mining : • C’est l’ensemble des… • Algorithmes et méthodes • Destinées à l’exploration et à l’analyse De grandes bases de données • Sans à priori • En vue de détecter dans ces données • Des Règles • Des tendances inconnues • Des structures particulières • Restituant de façon concise l’essentiel de l’information utile • Pour l’aide à la décision Stéphane Tuffery(2005) 24 Aout 2006 R.Boll, N.Mezencev
Le data mining(Suite) • Le Data Mining effectue l’analyse exploratoire des données (On recherche un ordonnancement dans un flot de données collecté avec peu d’à priori). • et non plus seulement une analyse confirmatoire(Analyse d’un essai planifié avec l’objectif de prouver un phénomène). 24 Aout 2006 R.Boll, N.Mezencev
Pourquoi faire du Data Mining ? • Les volumes de données sont trop importants pour un traitement à l’aide de techniques d’analyses classiques ; • L’utilisateur final n’est pas, en général statisticien de métier ; 24 Aout 2006 R.Boll, N.Mezencev
Objectifs du stage : • Renforcer le schéma conceptuel de la base de donnée BPI existante. • Développerune interface web génériqueavec cette base répondant aux requêtes usuelles (data mining). 24 Aout 2006 R.Boll, N.Mezencev
La base de données BPI : • Base SQL (structured Query Language) hébergée par le serveur UNIX du centre. • Constituée de 42 tables créées au fil des besoins. • Regroupe 97 Mo de données (1,2 millions d’enregistrements). 24 Aout 2006 R.Boll, N.Mezencev
Les choix logiciels : • La base de donnée MySQL 4.1.13_max • La gestion administrative du SGBD (Systeme de gestion de bases de données) est réalisée avec phpMyAdmin 2.6.3_pl1 • Le requêtage est réalisé en SQL 3 • Les langages de programmation choisis sont le PHP 4.0 et le HTML, pour des raisons de généricité 24 Aout 2006 R.Boll, N.Mezencev
Le nouveau modèle relationnel : • Dérive relationnelles de la base d’origine : Analyse des blocages fonctionnels par la méthode Merise assistée par le logiciel Power AMC. • Nouveau ‘modèle physique de données’aboutissant à une baseBPI2,conservant les informations contenues dans les tables d’origine. 24 Aout 2006 R.Boll, N.Mezencev
Principes pour la reconstitution de la base : • Les données doivent occuper le moins de placepossible…mais doivent cependant laisser une liberté de codage et de commentaires suffisante à l’utilisateur. 2. La redondance d’information est interdite. 3. Les mises à jour/suppression de données doivent laisser la base intègre. 4. La recherche d’information doit être sécurisée et rapide. 5. Les tables ne doivent représenter que des données de même nature. 24 Aout 2006 R.Boll, N.Mezencev
Le Modèle Conceptuel de Données : Regroupement au sein d’entités homogènes des attributs indispensables pour caractériser: • Un projet • Un essai • Une collecte • Un site • Les informations agronomiques correspondant à l’essai réalisé • Le matériel végétal travaillé • Les variables mesurées • Le plan du dispositif. • Les événements liés à la temporalité. • Les éléments de constitution du masque de saisie. • Une table de correspondance entre les méthodes et les variables. • La gestion des droits des utilisateurs. 24 Aout 2006 R.Boll, N.Mezencev
Le nouveau modèle physique de données Power AMC 24 Aout 2006 R.Boll, N.Mezencev
Le menu général : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Vérification des droits 24 Aout 2006 R.Boll, N.Mezencev
Saisie du formulaire projet Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Saisie du formulaire concernant le site d’essai Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Saisie des paramètres de l’essai Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Saisie des paramètres agronomiques : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Support végétal de l’essai Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Collecte d’organismes : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Création du masque de saisie Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Les coordonnées du masque : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Renseignement des variables : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
saisie des valeurs spatio-temporelles Sophia@data.mart Entrée de la date d’échantillonnage Fourniture de quelques données temporelles Liste des dates précédentes d’échantillonnage sur cet essai 24 Aout 2006 R.Boll, N.Mezencev
Evénements survenus entre 2 saisies : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Choix d’un masque pour la saisie des données : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Le masque de saisie : Sophia@data.mart Ici pour des données en classe Champs de commentaires 24 Aout 2006 R.Boll, N.Mezencev
Menu de visualisation des données de la base : Sophia@data.mart Date de début et de fin d’extraction 24 Aout 2006 R.Boll, N.Mezencev
Choix des champs à extraire : Sophia@data.mart 24 Aout 2006 R.Boll, N.Mezencev
Les tableaux de données extraites Sophia@data.mart Triées par variable; par date et par coordonnées X et Y Disponibles sous format compatible excel par E_Mail 24 Aout 2006 R.Boll, N.Mezencev
Le module de correction : 24 Aout 2006 R.Boll, N.Mezencev
Principales qualités d'un outil de Data Mining : • Richesses analytiques d'un niveau équivalent aux outils statistiques traditionnels. • destinés à des utilisateurs "métier"sans compétences statistiques ou informatiques particulières. 24 Aout 2006 R.Boll, N.Mezencev
Cahier des charges d'un outil de Data Mining : • L'utilisateur doit pouvoirsaisir sespropres paramètres. • Les résultats fournis par l'outil doivent êtreclairs et compréhensibles(pas trop de termes statistiques par exemple) • L’accèsaux données doit êtresimple. • Ne doitpas être dédiéà un domaine particulier • Doit pouvoir résoudre desproblèmes provenant decontextes différents. 24 Aout 2006 R.Boll, N.Mezencev
Le couplage data mining/data mart • Développement d’applications statistiques et graphiques : Un véritable outil de data mining se doit d’etre couplé avec des outils statistiques, ceux-ci peuvent etre réalisés en php ou profiter de possibilités d’interfaçage avec des logiciels statistiques. • Développement d’outils graphiques : PHP offre une classe graphique complete (jpgraphe) Permettant le tracé de courbes et d’histogrammes… 24 Aout 2006 R.Boll, N.Mezencev
Perspectives et discussion : • Extension du data mart sur des données climatiques. • L’affichage spatial ou temporel d’une observation, sous la forme d’un histogramme, d’une courbe ou de toute autre représentation. • Intégration des modèles de dénombrement existants. • Intégration de modèles prédictifs de D.D.P. 24 Aout 2006 R.Boll, N.Mezencev
Remerciements : • Je tiens à remercier tout d’abord, Roger Boll pour ses conseils et ses encouragements. • Je remercie Christine Poncet directrice de l’unité qui m’a donné l’opportunité de réaliser ce stage. • Merci à Séverine Doise dont l’aide m’a été précieuse dans l’élaboration de l’INTRANET de l’URIH. • Merci à Alexandre Bout qui fut notre beta testeur • Merci à mon épouse qui m’a laissé partir pendant quatre longs mois, et à mes enfants qui cochent scupuleusement les cases du calendrier. • Merci à tous enfin, dont les encouragements et les conseils m’ont donné envie de poursuivre mes efforts dans le domaine de l’informatique. 24 Aout 2006 R.Boll, N.Mezencev