110 likes | 196 Views
Prise de décision à paramètre continu Une approche symbolique. Jeanpierre Laurent Zilberstein Shlomo Charpillet François. Cadre de l’étude. L’approche conventionnelle Un ensemble d’actions discrètes Planification par énumération Limitations Actions réelles souvent continues
E N D
Prise de décision à paramètre continuUne approche symbolique Jeanpierre Laurent Zilberstein Shlomo Charpillet François
Cadre de l’étude • L’approche conventionnelle • Un ensemble d’actions discrètes • Planification par énumération • Limitations • Actions réelles souvent continues • Discrétisation • Peu d’actions « représentatives » • Nombreuses actions similaires
La recherche du continu… • Discrétisation de l’espace d’état • Selon l’action optimale ( B. Scherrer) • Selon la fonction de récompense (R. Coulom, A. Moore, R. Munos) • Utilisation d’actions continues / temps continu • R. Munos, A. Moore • K. Doya, R. Coulom • Apprentissage par renforcement
Une nouvelle méthode ? • Apprentissage par renforcement • Dynamique inconnue • Récompense inconnue • Nombreux essais nécessaires • Convergence Lente • Cadre d’un problème connu • Connaissance a priori du problème • Pas d’expérimentation nécéssaire • Représentation minimale
Cadre applicatif • Soit un mobile M ayant • Une position p • Une vitesse v • Des contraintes non linéaires • Vitesse bornée [-1 ; 1] • Position bornée [-1 ; 1] • Une récompense définie par morceaux • -10 si borne enfreinte • +10 si p=0.5
Résolution • Équations différentielles non linéaires • Pas de solution • Une infinité de solutions généralisées • Pas de forme analytique • Approximation par éléments finis • Interpoler la fonction de valeur • Entre des points de référence • Comment les choisir ?
Notre approcheUne construction incrémentale • À partir de la représentation active • Calcul de la fonction de valeur • Symboliquement • Identification de points critiques • Comparaison à la représentation active • Recherche de l’erreur maximale • Ajout d’un nouvel élément • Actualiser la représentation • Actualiser la valeur de chaque élément • Itérer jusqu’à convergence
Calcul de la fonction de valeur • A partir d’un point donné • Ex. : x=(0.4, v) • Application de la dynamique • F(x, u) = (0.4 + dt*v, v + dt*u) • Application des contraintes • V ≤ 1 u ≤ (1-v) / dt • V ≥ -1 u ≥ (-1-v) / dt • P correcte… • Liste de successeurs possibles selon u
Calcul de la fonction de valeur (2) • Interpolation de V(f(x, u)) • Choix des points de référence • Détermination des coordonnées barycentriques • Calcul de V • Calcul de V(x) • Maximum selon u • Valeur optimale avec ces hypothèses
Mise à jour de la représentation • Deux valeurs V(x) sont disponibles : • Le calcul issu de l’équation de HJB • L’interpolation à partir des références • Comparaison des deux valeurs • Sélection du point d’erreur maximale • Nouvel élément à définir • Évaluation de V • Pour chaque référence • Par HJB , dans le nouveau référentiel • Jusqu’à stabilité
Poursuite des travaux… • Problèmes mal résolus • Choix des références pour interpoler • Arbre de décision • Sélection des valeurs optimales • Autre piste intéressante • Choix des points critiques selon l’action • Interpoler les actions plutôt que la valeur ? • Comparaison aux méthodes d’A/R • Qualité du résultat ? • Vitesse de convergence ?