300 likes | 554 Views
PLANS D’EXPERIENCES NUMERIQUES, APPRENTISSAGE ET GEOSTATISTIQUE. Laurent CARRARO mars 06. Plan. Introduction Formalisation Le phénomène réel Le simulateur Les problèmes à résoudre Métamodèles et géostatistique Modèles pour l’apprentissage Caractéristiques des expériences numériques
E N D
PLANS D’EXPERIENCES NUMERIQUES, APPRENTISSAGE ET GEOSTATISTIQUE Laurent CARRARO mars 06
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Exemple : exploration pétrolière Objectifs : • découvrir, évaluer et produire des réservoirs pétroliers. • objets complexes, difficilement accessibles, mal connus. • nécessité d’investir des sommes colossales. Risques financiers énormes nécessité de développer une méthode de gestion des incertitudes subsurface.
Problèmes à résoudre • Trois types de problèmes • Propagation des incertitudes • Calage/qualification de codes • Optimisation • Enjeux et objectifs • Analyses de risques pour prise de décision • Maximiser la rentabilité
Exploration pétrolière scénario(s) de production caractéristiques du réservoir SIMULATEUR évaluation de la production y1(t), y2(t),…, yn(t)
Problèmes direct et inverse évaluation de la production caractéristiques du réservoir • En phase d’appréciation / développement • Quel impact les incertitudes sur les caractéristiques du réservoir peuvent avoir sur l’évaluation de la production et des réserves? Direct : propagation des incertitudes • En phase de production • Comment la connaissance de la production passée, avec ses erreurs de mesures, peut aider à mieux connaître les caractéristiques du réservoir et à affiner les prédictions de production? Inverse : calage
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Le phénomène réel Il est caractérisé par : • des variables d’intérêt yréel exemple : production de pétrole cumulée à venir • des variables d’environnement venv variables subies et mal connues, de grande dimension exemple : caractéristiques du sous-sol • des variables de contrôle ucont variables pouvant être fixées par l’utilisateur pour atteindre divers objectifs
Le phénomène réel Variables d’environnement venv fréel Variables d’intérêt yréel Variables de contrôle ucont Ces variables sont liées selon le schéma fonctionnel suivant :
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Le simulateur • La fonction fréel est approchée par un simulateur. • Une nouvelle classe de variables, les variables de simulation, apparaît pour : • paramétrer le simulateur et/ou • l’ajuster (« tuning parameters ») • Ainsi : • ysim est laréponse estimée par le simulateur • uenv est une approximation des variables d’environnement de venv • ucont représente les variables de contrôle • usim est le vecteur des variables de simulation
Variables de simulation usim Variables d’environnement uenv fsim Variables d’intérêt ysim Variables de contrôle ucont avec pour forme fonctionnelle : Le simulateur
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Les problèmes à résoudre • Propagation d’incertitudes Comment propager les incertitudes affectant la variable uenv sur la réponse ysim ? • Problèmes inverses Calage de paramètres / d’historique Les variables de contrôle sont fixées et le phénomène réel est observé. Comment ajuster les paramètres d’environnement et/ou de simulation pour reproduire les observations ? Optimisation des variables de contrôle Les variables de modélisation et d’environnement sont fixées et un ou plusieurs critères à maximiser introduits. Quel niveau des variables de contrôle ucont maximise les critères ?
Difficultés à surmonter • Dimension des variables du problème • Il faut réduire la taille des variables en présence • Analyses de sensibilités (globales) • Temps de calcul de fsim • Renault : simulation d’un cycle d’explosion dans un cylindre. Quelques heures de calcul pour simuler une fraction de secondes. • ONERA: une simulation de soufflerie à Mach 3 dure plusieurs semaines.
Démarche adoptée • Approximation du simulateur • On remplace le simulateur fsim par une fonction plus simple, notée fapp. C’est la surface de réponse. • La réponse yapp donnée par la fonction fapp est liée aux variables d’environnement xenv, de contrôle ucont et d’approximation uapp par : • Plan d’expériences numériques • Pour construire la fonction approchée fapp, le simulateur est évalué sur un jeu de variables d’environnement, qui constitue un plan d’expériences numériques.
En résumé Observations Réponses fréel Y fapp fsim Points d’évaluation du simulateur X
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Modèles pour l’apprentissage • Historiquement : reconnaissance des formes • Domaine frontière - data mining : • informatique • neurosciences • statistiques • Apprentissage supervisé : • apprendre une relation, une classification, • à partir d’une base d’exemples, • et d’informations a priori
Quelques modèles du data mining • Modèles paramétriques : • Régression linéaire • Régression non linéaire • Modèles non paramétriques : • Lissage et splines • modèles semi-paramétriques (GAM, PPR…) • réseaux de neurones • machines à support vectoriel (SVM) • arbres de régression et forêts aléatoires • bagging et boosting
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Expériences numériques • Les variables d’environnement sont inconnues, mais on peut les fixer !! • Les points sur le bord du plan d’expériences sont de probabilité nulle. • Problème des plans d’expériences factoriels. • Répétabilité : fsim est une fonction !
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Rappels de géostatistique • Origine : statistique minière • Formalisme : • Variable régionalisée : z(x), x de dim 1,2 ou 3 • Hypothèse : z(x) est la réalisation d’une fonction aléatoire Z(x) • Observations : z(xi) ou z(xi)+i, pour 1in • Modèles stationnaires, avec dérive : Z(x) = t(x) + Y(x) • t est la tendance • Y est un processus stationnaire gaussien centré • cov(Y(x), Y(x+h)) = 2 R(h)
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Métamodèles et géostatistique • On écrit : fsim(uenv) = t(uenv) + y(uenv) • Commentaires : • L’alea sur y est une traduction de la régularité supposée de la fonction • le krigeage est une méthode d’interpolation • t est estimée par les techniques de data mining • R aussi, à partir de la nuée variographique • estimation du métamodèle et de son incertitude
Plan • Introduction • Formalisation • Le phénomène réel • Le simulateur • Les problèmes à résoudre • Métamodèles et géostatistique • Modèles pour l’apprentissage • Caractéristiques des expériences numériques • Rappels de géostatistique • Computer experiments et géostatistique • Conclusions
Conclusions… et perspectives • Projet DICE (Deep Inside Computer Experiments) • Géostatistique : • à adapter aux grandes dimensions • krigeage bayésien • Théorie des plans d’expériences à reconstruire dans ce contexte : • Suites à faible discrépance • Propriétés des projections des plans d’expériences sur des sous-espaces
Eléments bibliographiques • Carraro L., Corre B., Helbert C., Roustant O. (2005), Construction d’un critère d’optimalité pour plans d’expériences numériques dans le cadre de la quantification d’incertitudes, Revue de Statistique Appliquée, LIII (4), p. 87-103. • Cressie N.A.C. (1993), Statistics for spatial data, Wiley series in probability and mathematical statistics. • Hastie T., Tibshirani R., Friedman J. (2001), The elements of statistical learning, Springer. • Jones D.R., Schonlau M., Welch W.J. (1998), Efficient global optimization of expensive black-box functions, J. of Global Optimization, 13, p. 455-492. • Oakley J.E., O'Hagan A. (2004), Probabilistic sensitivity analysis of complex models: a Bayesian approach, J. R. Statist. Soc. B, 66, 3, p. 751-769. • Sacks J., Welch W.J., Mitchell T.J., Wynn H.P. (1989), Design and analysis of computer experiments, Statist. Science, 4, p. 409-435. • Saltelli A., Tarantola S., Campolongo F., Ratto M. (2004) Sensitivity Analysis in Practice: A Guide to Assessing Scientific Models, Wiley. • Santner T.J., Williams B.J., Notz W.I. (2003), The design and analysis of computer experiments, Springer Series in Statistics. • Vapnik V. (1998), Statistical learning theory, Wiley. • Walter E., Pronzato L. (1994), Identification de modèles paramétriques à partir de données expérimentales, Masson.