Apport de l’apprentissage par renforcement aux problèmes de maintenance optimale :

Apport de l’apprentissage par renforcement aux problèmes de maintenance optimale : Application aux constellations de satellites Frédérick GARCIA INRA BIA, Toulouse André CABARBAYE, Linda TOMASINI CNES, Toulouse

Plan 1. Introduction 2. Entretien d'une constellation 3. Maintenance optimale 4. Modèle markovien de l'entretien d'une constellation 5. Principes de l'apprentissage par renforcement 5. Application à la constellation 6. Conclusion

Introduction Importance du problème de l’entretien des constellations Démarche prospective menée en parallèle avec des techniques de simulation Illustration des possibilités et limitations de l ’apprentissage par renforcement

Le problème de l’entretien d’une constellation • Géométrie de la constellation considérée • 8 plans orbitaux régulièrement espacés (4 satellites/plan) • Spares à basse altitude • Dérive naturelle des spares par rapport aux orbites opérationnelles • Lancements • sur l’orbite intermédiaire des spares • dérive naturelle, puis changement d ’altitude par propulsion • lanceurs de capacités, coûts, fiabilités et délais de disponibilité différents

Le problème de l’entretien d’une constellation 4 • Evénements aléatoires • Satellites sujets à panne ou fin de vie • Défaillances lanceurs et mises à poste • Critère à minimiser : • Coût des satellites • Coût des lanceurs • Coût d’indisponibilité de service 4 4 °/jour 3 4 4 4 4 • Actions de maintenance • Remplacement d ’un satellite défaillant ou en fin de vie par un spare • Lancement de plusieurs satellites pour remplacer des satellites • défaillants ou « approchant » la fin de vie

Optimisation de la maintenance • Modèles mathématiques s’attaquant à une difficulté particulière • Modèles d ’inspection : système non continûment observable • Système partiellement observable • Système sujet à des chocs (dommage accumulé) • Réparation d’un composant ou remplacement du système • Utilisation de spares sujets ou non à dégradation • Délai de mise à disposition des spares • Systèmes utilisés de façon intermittente

Optimisation de la maintenance • Approches mathématiques à base de processus stochastiques contrôlés par des actions de maintenance • files d’attente, systèmes semi-markoviens ou markoviens, ... • Critères d’optimisation (coût d ’une action ou d ’une indisponibilité) • Somme des coûts pondérés • Coût moyen par unité de temps

Optimisation de la maintenance • Résultats du type : • preuve d’une structure optimale de politique • ou bien hypothèse d’une structure de politique et recherche • analytique ou numérique des paramètres optimaux. • Structures de politiques • remplacement si panne, ou si âge ou dommage > seuil • remplacement si nb de réparations > seuil • remplacement simultané d’unités arrivant en fin de vie • (T-w<âge<T)

Spécificités de la maintenance d’une constellation • Système à unités multiples • Seule action de maintenance possible : remplacements de satellites • Maintenance préventive ou curative • Remplacement simultané de plusieurs unités • Temps de remplacement variable • Utilisation de spares ou de satellites neufs • Spares sujets à panne

Différentes approches considérées • Optimisation de politiques paramétrées • choix d ’une structure • optimisation des paramètres par simulation • Recherche d ’une politique optimale • modèle markovien • algorithmes de programmation dynamique stochastique, ou • apprentissage par renforcement

Modèle markovien de la maintenance de la constellation • Etats du système • esol : liste de lancement programmés • espare : liste de spares avec leurs orbites et leurs âges • eop : état et âge des 32 satellites opérationnels • Actions • asol : nombre de satellites à lancer (0, 2, 5, 7) • alanc : orbite basse cible pour le lancement courant (1,..8) • aspare : envoi de chaque spare en orbite haute (28)

Modèle markovien de la maintenance de la constellation • Dynamique de l ’état • Dt = 1 mois = dérive d’un plan spare • panne au lancement et à la mise à poste • pannes satellites (loi exponentielle) • Coûts • c(asol) : production satellites + lancement • c(eop) : indisponibilité de service • on cherche à minimiser S gt ct , g<1

Caractérisation d’une politique markovienne optimale Passage par l ’intermédiaire d ’une fonction de valeur V*(e) Equation d ’optimalité en V* V*(e) = mina { c(e,a) + gSe’ p(e’ | e,a) V*(e ’) } On en déduit une politique optimale p*(e) = argmina { c(e,a) + gSe’ p(e’ | e,a) V*(e ’) }

Le cas de la constellation Les actions asol , alanc , aspare sont exécutées en séquence Equations d ’optimalité : Vsol*(e) = minasol { c(asol) + Vlanc*(e’) } Vlanc*(e) = minalanc { Se’ p(e’ | e, alanc) Vspare*(e’) } Vspare*(e) = minaspare { c(eop ) + gSe’ p(e’ | e, aspare) Vsol*(e’) }

Algorithmes d’optimisation de V* et p* Programmation dynamique : Résolution de l ’équation en V* par des méthodes itératives (value iteration, policy iteration) Limitation de la P.D. : Algorithmes polynomiaux en nS et nA Inapplicable dès que nS ou nA deviennent trop importants

Principe de l ’apprentissage par renforcement • Utilisation de la simulation pour mettre à jour localement • la fonction de valeur V*(e) ct+1 ct ct+1 at+N at at+1 et+N et+1 et • Vt+1(et) = (1- a) Vt(et) + a {ct + g Vt(et+1) } • L ’actionatest choisie selonVtplus exploration aléatoire • Il est possible de paramétrer la fonction V • (représentations linéaires, réseaux de neurones ..)

De nombreuses applications • Robotique, jeux • Recherche opérationnelle • (conduite optimale des systèmes de production, routage, • ordonnancement, maintenance, etc...) • Les politiques obtenues améliorent souvent les meilleures • politiques paramétrées connues jusqu’alors.

Application à la maintenance de constellation • Choix de l ’algorithme : approximate policy iteration • Résolution tous les Dt = 1 mois à partir de la configuration courante • Paramétrisation des fonctions de valeur Vsol*, Vlanc*, Vspare*

Conclusions Complexité du problème global La partie expérimentale sera menée dans les prochains mois Validation rapide des résultats (comparaison par simulation avec des politiques heuristiques)

Apport de l’apprentissage par renforcement aux problèmes de maintenance optimale :

Apport de l’apprentissage par renforcement aux problèmes de maintenance optimale :

Presentation Transcript

Syndromes coronariens aigus du sujet g

Standard Operating and Maintenance Procedures

Développement cognitif mémoire et apprentissage

GAS TURBINE OPERATION AND MAINTENANCE

Maintenance Fluid Therapy

Introduction à l'Apprentissage Artificiel

Différentes approches de l’enseignement et de l’apprentissage

Module I : Apprentissage de l’exercice médical (2) Cours DCEM 3 Année 2009-2010 Pr Jean-Luc CHOPARD

REPERAGE et DEPISTAGE DES TROUBLES D’APPRENTISSAGE

POLYPE ANTRO-CHOANAL DE KILLIAN APPORT DE LA TDM HAUTE RESOLUTION

Les troubles d’apprentissage spécifiques

Copian Brancher les Canadiens dans l’apprentissage

Raphaël LECA UFRSTAPS DIJON raphael.leca@wanadoo.fr

Apport de l ’ imagerie cérébrale et de la neuropsychologie en psychiatrie

Apprentissage automatique et notions connexes

Apport de l’imagerie cérébrale dans les schizophrénies

FMP/Common Setup

Simulator Calibration and Maintenance

Échec , erreur, et apprentissage en éducation physique et sportive

25U10/B02-LP1 THE ARMY MAINTENANCE MANAGEMENT SYSTEM

System Maintenance Training Course

Certified Maintenance & Reliability Professional questions