260 likes | 441 Views
Un algorithme glouton de résolution de PDMTOs agrégés. Stéphane Cardon cardon@cril.univ-artois.fr. Plan. Rappels sur les PDMs Problème Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions Algorithme glouton Résultats expérimentaux
E N D
Un algorithme glouton de résolution de PDMTOs agrégés Stéphane Cardon cardon@cril.univ-artois.fr
Plan • Rappels sur les PDMs • Problème • Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions • Algorithme glouton • Résultats expérimentaux • Conclusion et perspectives
Processus Décisionnel de Markov (1/2) • Un PDM est un 6-uplet : <S,A,O,Pr,G,C> • S est l ’ensemble des états, s est un état • A est l ’ensemble des actions, a est une action • O est l ’ensemble des observations, o est une observation • Pr est la description des transitions du système, Pr(ot|s1t,at-1, s2t-1) est la probabilité d ’observer o à l ’étape t, sachant que le système est passé de l ’état s2 à l ’état s1 par l ’action a durant l ’étape t-1 • G est la fonction de gain, G(s) est le gain pour être dans l ’état s • C est la fonction de coût, C(s,a) est le coût de l ’action a lorsqu ’on est dans l ’état s
Processus Décisionnel de Markov (2/2) • Une trajectoire observable est une suite de couples (observation, action) • Une trajectoire du système est une suite de couples (état, action) • L ’horizon du PDM est l ’ensemble des trajectoires possibles du système • Une politique est une trajectoire observable
Résolution de PDM Résoudre un PDM revient à chercher la politique ayant une valeur espérée maximale, politique appelée politique optimale (*)
PDM Totalement Observable • Nous nous restreignons à des PDMTOs : • O = A • Pr(s1t|at-1,s2t-1) est la probabilité d ’arriver dans l ’état s1 depuis s2 par l ’action a durant l ’étape t-1 • est une fonction de SxT dans A • La valeur espérée de est (Bellman) : • Vt(s) = G(s) + C(s,(s,t))+ Pr(s’|s, (s,t)) . Vt-1(s’) • Nous supposons aussi que l ’horizon est fini, T est le nombre d ’étapes
Plan • Rappels sur les PDMs • Problème • Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions • Algorithme glouton • Résultats expérimentaux • Conclusion et perspectives
Problème • Techniques usuelles inefficaces lorsque S est grand • Notre problème est de résoudre ce type de PDMs • PDMs courants lorsque : Agent ayant des ressources limitées, évoluant dans un environnement dynamique, temps-réel et incertain
Plan • Rappels sur les PDMs • Problème • Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions • Algorithme glouton • Résultats expérimentaux • Conclusion et perspectives
Agrégation de PDMs • Une première solution, basée sur une approche « divide and conquer », est d ’agréger les PDMs • PDM Agrégé : état = sous-PDM • Réaliste pour nos applications : groupement d ’états en fonction de certains critères (proximité géographique)
Conditions supplémentaires • Pré-ordre total pour le PDM agrégé • Existence d ’un état de départ pour chaque sous-PDM • Accessibilité : Si il existe une action permettant d ’aller d ’un sous-PDM P2 à un autre P1, alors la même action permet d ’aller de n ’importe quel état de P2 à l ’état de départ de P1
Plan • Rappels sur les PDMs • Problème • Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions • Algorithme glouton • Résultats expérimentaux • Conclusion et perspectives
Définitions • Restriction d ’une politique :/S’(s) = (s) si s S’ S, non défini sinon • Composition de politiques : • = 1 2, 1 défini sur S1, 2 sur S2 • S1 S2 = • (s) = 1(s) si s S1 • (s) = 2(s) si s S2
Propriété de la composition • Soit le sous-PDM P2 accessible par P1 • Soit 1 une politique de P1 • Soit 2 une politique de P2 • Soit := 1 2 V() = V(1) + V(2) • Idée preuve : récurrence sur le nombre d ’étapes et utilisation de la valeur espérée de Bellman.
Décomposition optimale • Soit P un PDM agrégé muni d ’un pré-ordre total et vérifiant les conditions d ’existence et d ’accessibilité • Soit Pi les sous-PDMs de P • Soit * la politique optimale de P i, si */Pi est définie, alors */Pi est optimale dans Pi • Idée preuve : Raisonnement par l ’absurde, il ne peut exister une politique optimale dans Pi différente de */Pi
Composition linéaire optimale • Soit P un PDM agrégé muni d ’un pré-ordre total et vérifiant les conditions d ’existence et d ’accessibilité • Soit Pi une suite de sous-PDMs de P • Soit := i i* est optimale dans le PDM engendré par Pi • Idée preuve : conséquence du théorème précédent
Algorithme - détermination de la politique optimale • Pour chaque sous-PDM P du PDM agrégé muni du pré-ordre total, en commençant par les derniers et en remontant jusqu ’aux premiers, faire : • Pour chaque sous-PDM successeur Ps faire : • calculer la composée de la politique optimale de P avec la politique composée de Ps • la politique composée de P devient cette composée si cette dernière a une valeur espérée plus grande • O(N) - N est le nombre de sous-PDM
Algorithme - problème d ’allocation des étapes (1/2) • Un sous-PDM a une politique optimale différente en fonction du nombre d ’étapes dont il dispose • Combien d ’étapes allouer à chaque sous-PDM ? • Définitions : • Variation : rapport de la valeur espérée de la politique optimale par le nombre d ’étapes de cette politique
Algorithme - problème d ’allocation des étapes (2/2) • Variation instantanée : pente de la valeur espérée entre une étape de départ inférieure strictement à une étape d ’arrivée (0 sinon) • Perte : pente de la valeur espérée entre une étape de départ supérieure strictement à une étape d ’arrivée (0 sinon)
Algorithme • Allocation, pour chaque sous-PDM, de l ’étape correspondant à une variation maximale • Répéter • Détermination de * - O(N) • Si * a un nombre d ’étapes consommées supérieur aux étapes maximales,chercher le sous-PDM, intervenant dans *, ayant une perte minimale et lui allouer les étapes correspondantes - O(N) • Sinon, si c ’est inférieur,chercher le sous-PDM, intervenant dans *, ayant une variation instantanée maximale et lui allouer les étapes correspondantes (si possible, sinon arrêt) - O(N) • Jusqu ’à égalité entre le nombre d ’étapes max. et de * O(N²)
Plan • Rappels sur les PDMs • Problème • Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions • Algorithme glouton • Résultats expérimentaux • Conclusion et perspectives
Plan • Rappels sur les PDMs • Problème • Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions • Algorithme glouton • Résultats expérimentaux • Conclusion et perspectives
Conclusion et Perspectives • Résultats satisfaisants en moyenne mais fort écart-type mais pour des PDMs agrégés générés aléatoirement • Plus d ’expérimentations (PDMs générés puis agrégés) • Améliorer l ’allocation des étapes • Étude pour des sous-PDMs réduits à un état • Affaiblissement des conditions, travailler avec des PDMPOs