420 likes | 519 Views
Outils d’analyse statistiques « programmation par l’exemple ». S. Canu, laboratoire PSI, INSA de Rouen équipe « systèmes d’information pour l’environnement » psichaud.insa-rouen.fr/~scanu. Plan de Route. traitement de données environnementales risque statistique études de cas
E N D
Outils d’analyse statistiques« programmation par l’exemple » S. Canu, laboratoire PSI, INSA de Rouen équipe « systèmes d’information pour l’environnement » psichaud.insa-rouen.fr/~scanu
Plan de Route • traitement de données environnementales • risque statistique • études de cas • nez électronique • capteur logiciel • prévision de charge entrante • modélisation de l’écrouissage • programmation à base d’exemples • exemples d’applications potentielles • prévision de rupture • prévision des « bouchons »
Système d’information pour l’environnement • Nature des phénomènes • beaucoup de données disponibles • dépendances complexes : non linéaires, bruités • les événements intéressants sont rares
Système d’information pour l’environnement • Nature des phénomènes • beaucoup de données disponibles • dépendances complexes : non linéaires, bruités • les événements intéressants sont rares • Problèmes à résoudre • validation de données • prévision à court terme • évaluation de la situation • décision.
Système d’information pour l’environnement • Nature des phénomènes • beaucoup de données disponibles • dépendances complexes : non linéaires, bruités • les événements intéressants sont rares • Solution • programmation à base d’exemple • précision de la prévision • domaine de validité • Problèmes à résoudre • validation de données • prévision à court terme • évaluation de la situation • décision.
Risque statistique Exemple : comment calculer une intégrale ? c * * f(x) * * * * * * * * * * * * * * * * * * * * * * C’est la méthode de Monté Carlo a b
Risque statistique Exemple : comment calculer une intégrale ? c * * f(x) * * * * * * * * * * * * * * * * * * * * * * C’est la méthode de Monté Carlo a b Définition : Précision d’un estimateur (risque associé à un estimateur) Le cas quadratique : - Biais - Variance
Risque statistique Exemple : comment calculer une intégrale ? c * * f(x) * * * * * * * * * * * * * * * * * * * * * * C’est la méthode de Monté Carlo a b Définition : Précision d’un estimateur (risque associé à un estimateur) Le cas quadratique : - Biais - Variance Risque = moyenne des erreurs
Risque statistique Exemple : comment calculer une intégrale ? c * * * * * * * * * f(x) * * * * * * * * * * * * * * * C’est la méthode de Monté Carlo a b Définition : Précision d’un estimateur (risque associé à un estimateur) Le cas quadratique : - Biais - Variance Risque = moyenne des erreurs Risque = erreur systématique + aléa
Statistiques pour le calcul • Monté Carlo • relaxation, recuit simulé... • résolution d’un système linéaire n3 : méthodes itératives plus rapides mais « aléatoires » • Modélisation : utilisation d’exemples La modélisation statistique de phénomènes déterministes peut s’avérer utile
Nez électronique • Objectifs • remplacer un capteur coûteux par 6 capteurs « bon marché » • détecter certaines situation critiques • Données disponibles • 280 points de mesures • 12 variables mesurées (pentes et conductance des capteurs) • a priori • phénomènes « réguliers » • coût « absolu » • méthode • S.V.M. (un genre de réseau de neurones) • sélection des variables pertinentes par analyse discriminante • définition des zones d’ambiguïté • définition d’un domaine de validité du domaine • Résultats
Nez électronique Classe 1 Classe 3 Ambigus Classe 2 inconnus Régle de décision dans le plan de l’AFD
Capteur logiciel • Objectifs • valider les données d’un capteur physique de NH4 • remplacer ce capteur pour la détection • Données disponibles • 4 années, toutes les heures • 24 variables mesurées (pH, température, conductance, turbidité,…) • beaucoup de données manquantes • a priori • phénomènes « réguliers » • coût quadratique • méthode • réseau de neurones • sélection des variables pertinentes • prévision de l’erreur de prédiction par un autre réseau de neurones • définition d’un domaine de validité du domaine • Résultats
Prévision de la charge entrante • Objectifs • prévoir quand et quelle quantité de polluant va arriver à . la station d’épuration • Données disponibles • 12 années, toutes les heures • 24 variables mesurées : pluie, charge entrante, température • a priori • phénomènes « réguliers » • coût quadratique • méthode • prévision de la pluie par un réseau de neurones • prévision de la charge par un second réseau de neurones • structurer les réseaux de neurones à priori • définition d’un domaine de validité du domaine
Écrouissage • Objectif • prévoir le comportement de l’alliage en fonction des forces • Données disponibles • simulations logiciel dans un premier temps • données réelles ensuite • a priori • phénomènes temporels à mémoire • coût quadratique • méthode • réseau de neurones récurrents (bouclés) • approche incrémentale • Résultats
Écrouissage Déformations - plastiques - élastiques Écrouissage - isotrope - cinématique f(t) : la force appliquée au cours du temps e(t) : l’allongement constaté au cours du temps
Écrouissage Déformations - plastiques - élastiques Écrouissage - isotrope - cinématique Pour une même valeur du couple (F,D) le futur est imprédictible Il faut connaître le passé du système f(t) : la force appliquée au cours du temps e(t) : l’allongement constaté au cours du temps
Écrouissage : le modèle « statistique » e(t) = e(t-1) + D (f(t)-f(t-1)) z-1 Plastique/Elastique sp a-b e sm a+b 1 -a f(t) +1 x 1 -1 Monte/Descend f(t-1) 1 On cherche à « écrire » un programme, qui à partir d’une suite de « forces » calcule la réponse de la pièce
Écrouissage : résultats mesure modèle
Programmation à base d’exemples • Apprendre : des entrées : X, et des sorties : Y • But : trouver une dépendance : r(X) • Utilisation : pour un X donné : prévoir Y • Connaissance : données : (Xi,Yi), i=1,n cout : C(x,r(x),y) a priori sur la structure du modèle • Difficultés : Généralisation données limitées remplir les trous • Tâches génériques : Discrimination, Régression, Prévision à un pas de temps, Identification
Programmation à base d’exemples • Apprendre : des entrées : X, et des sorties : Y • But : trouver une dépendance : r(X) • Utilisation : pour un X donné : prévoir Y • Connaissance : données : (Xi,Yi), i=1,n cout : C(x,r(x),y) a priori sur la structure du modèle • Difficultés : Généralisation données limitées remplir les trous • Tâches génériques : Discrimination, Régression, Prévision à un pas de temps, Identification Modules logiciels
Modèle « boite noire » Prévision ^ y = r(X) X Entrées Observables erreur CRITERE Système Réel Entrées Non Observables Y = F(X, )
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) Algorithme programme
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) Algorithme programme • Pas de modèle : • si on veut pourvoir tout apprendre, il faut contrôler la complexité • Représentation des incertitudes : • fusion d’informations incertaines • Méthodologie et applications : • domaine de validité, intervalle de confiance, heuristiques
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) cout Algorithme programme • Pas de modèle : • si on veut pourvoir tout apprendre, il faut contrôler la complexité • Représentation des incertitudes : • fusion d’informations incertaines • Méthodologie et applications : • domaine de validité, intervalle de confiance, heuristiques
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) cout Algorithme programme • Pas de modèle : • si on veut pourvoir tout apprendre, il faut contrôler la complexité • Représentation des incertitudes : • fusion d’informations incertaines • Méthodologie et applications : • domaine de validité, intervalle de confiance, heuristiques
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) a priori cout Algorithme programme • Pas de modèle : • si on veut pourvoir tout apprendre, il faut contrôler la complexité • Représentation des incertitudes : • fusion d’informations incertaines • Méthodologie et applications : • domaine de validité, intervalle de confiance, heuristiques
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) a priori cout Algorithme programme • Pas de modèle : • si on veut pourvoir tout apprendre, il faut contrôler la complexité • Représentation des incertitudes : • fusion d’informations incertaines • Méthodologie et applications : • domaine de validité, intervalle de confiance, heuristiques
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) a priori cout Algorithme programme • Pas de modèle : • si on veut pourvoir tout apprendre, il faut contrôler la complexité • Représentation des incertitudes : • fusion d’informations incertaines • Méthodologie et applications : • domaine de validité, intervalle de confiance, heuristiques
Programmation à base d’exemples Exemples : (formes x, étiquettes y, confiance) a priori cout Algorithme programme • Pas de modèle : • si on veut pourvoir tout apprendre, il faut contrôler la complexité • Représentation des incertitudes : • fusion d’informations incertaines • Méthodologie et applications : • domaine de validité, intervalle de confiance, heuristiques
Aspects fondamentaux Poser le problème les enjeux théoriques de l'apprentissage Explorer une solution possible la régularisation Développer de nouvelles approches nouveaux algorithmes Étude d'un problème fondamental sélectionner les variables explicatives pertinentes
Perspectives Huile +gaz +eau Bouchons
Prévoir la taille des bouchons y « date » d’arrivé et taille du prochain bouchon Algorithme de prévision Une forme x historique, taille, profil et points bas de la canalisation température, débit
1 Prévoir la taille des bouchons Ensemble d’apprentissage (échantillon) A : Algorithme d’apprentissage y « date » d’arrivé et taille du prochain bouchon Algorithme de prévision Une forme x historique, taille, profil et points bas de la canalisation température, débit
1 Prévoir la taille des bouchons Ensemble d’apprentissage (échantillon) 2 A : Algorithme d’apprentissage y « date » d’arrivé et taille du prochain bouchon Algorithme de prévision Une forme x historique, taille, profil et points bas de la canalisation température, débit
1 Prévoir la taille des bouchons Ensemble d’apprentissage (échantillon) 3 A priori sur la nature de la solution 2 A : Algorithme d’apprentissage y « date » d’arrivé et taille du prochain bouchon Algorithme de prévision Une forme x historique, taille, profil et points bas de la canalisation température, débit
Conclusion • C’est un outil dont il ne faut pas se priver • Les méthodes statistiques peuvent dans certains cas • apporter des solution originales à des problèmes « difficiles » • il faut disposer de données • on fait de la programmation à partir de données • la notion de « coût » est fondamentale • il faut disposer d’une bonne méthodologie • il était une fois un concours de prévision...