350 likes | 472 Views
Predictive State Representation. Abdeslam BOULARIAS Damas laboratory, Computer Science and Software Engineering Departement Laval University boularias@damas.ift.ulaval.ca. Le problème du control des systèmes dynamiques.
E N D
Predictive State Representation Abdeslam BOULARIAS Damas laboratory, Computer Science and Software Engineering Departement Laval University boularias@damas.ift.ulaval.ca
Le problème du control des systèmes dynamiques • Un système dynamique est un système qui change d’état à travers le temps, selon des règles mathématiques fixes. • Un système dynamique peut être: • Déterministe: Étant donné un état initial, n’importe quel état futur peut être déterminé avec certitude (ex: le système solaire). • Stochastique: Les états futurs du système peuvent seulement être estimés avec une certaine probabilité (ex: une file d’attente). • Contrôlé: L’état du système est influencé par des actions prises par un agent (ex: la navigation d’un robot). • Incontrôlé: Le temps est le seul paramètre (action) qui influence l’état du système (ex: la reconnaissance de la parole). Abdeslam BOULARIAS - 26 June 2006
Le problème du control des systèmes dynamiques • Deux opérations principales dans les systèmes dynamiques: • La prédiction de l’état du système à l’instant t. • Le control optimal: Maximiser les récompenses obtenues. • Représentation de l’état du système: • Énumération explicite des états : S0, S1, … Sn. (modèle génératif). Ex: MDPs, POMDPs… • Historique des actions et des observations St= a0 o0 a1 o1 …at-1 ot-1. Ex: les modèles k-markoviens, Utile Suffix Memory (USM).. Abdeslam BOULARIAS - 26 June 2006
La représentation des états Modèle historique: L’état courant est la séquence des actions et observations passées. Modèle génératif: L’état courant est mis à jour récursivement. Abdeslam BOULARIAS - 26 June 2006
La représentation des états • Dans la plupart des systèmes, les états ne sont que partiellement observables. • Les POMDPs permettent de remédier à ce problème en utilisant la notion de l’état de croyance: une distribution de probabilité sur tous les états du système. Mais: • Les algorithmes de planification sont NP-Difficiles à cause de la continuité de l’état de croyance. • Un état est souvent l’effet de plusieurs facteurs (états), ce qui produit une explosion combinatoire de l’espace des états. • Les états de croyance ne sont pas observables, donc non vérifiables. • Limités aux environnements markoviens et stationnaires. • En absence des paramètres du modèles, les algorithmes d’apprentissage sont peu efficaces. (problèmes des alias perceptuels, maximums locaux dans les méthodes par descente du gradient …) • Les POMDPs manquent d’autonomie: À chaque nouvelle configuration de l’environnement il faut que l’utilisateur intervient pour spécifier les états. Abdeslam BOULARIAS - 26 June 2006
La représentation des états • Les modèle k-markoviens, le système est caractérisé par: • Certains systèmes ne peuvent pas êtres décrits par aucun modèle k-markovien, avec une longueur d’historique k finie: • La méthode USM (Utile Suffixe Memory) utilise une longueur variable de l’historique (non limitée). • Dans l’exemple précédent, la profondeur de l’arbre USM grandit d’un niveau à chaque étape du temps. a2 o2 S1 S2 a1 a1 o1 S0 a2 o2 a2 S3 S4 a1 o1 Abdeslam BOULARIAS - 26 June 2006
La représentation prédictive des états • Idée de base: l’état actuel du système est représenté par un ensemble de réponses (observations) à un certain nombre de questions (actions). • Exemple: • État classique: (Rétroprojecteur en panne) ν (Télécommande défectueuse) ν(Coupure du courant électrique). • Représentation prédictive: Action (appuyer sur le bouton ON de la télécommande) Observation (Le rétroprojecteur se mis en marche). • Les prédictions peuvent êtres apprises, testées, et maintenues. Abdeslam BOULARIAS - 26 June 2006
La représentation prédictive des états • Un test t (une question, un futur) est: • Dans un système non contrôlé: une séquence d’observations t=o1o2..ok. • Dans un système contrôlé: une séquence t=a1o1a2o2.. akok d’observations obtenues depuis une séquence d’actions. • Une réponse à un test est: • Dans un système non contrôlé: P(t)=P(o1=o1 ..., ok=ok). • Dans un système contrôlé: P(t)=P(o1=o1 ..., ok=ok / P(a1=a1 ..., ak=ak ). • Un système est une distribution de probabilités sur tous les futurs possibles: t0 t1 t2 …. ti…. P(t0) P(t1) P(t2) …. P(ti)…. Abdeslam BOULARIAS - 26 June 2006
History Test … … o2 ok o1 a2 ak a1 o1 a2 o2 a3 o3 aj oj a1 La représentation prédictive des états Prédiction d’un test p(t|h) Abdeslam BOULARIAS - 26 June 2006
La représentation prédictive des états: Exemple Un ensemble réduit de tests permet de décrire parfaitement l’état actuel du système, et donc les réponses de tous les autres tests. Dans l’exemple: t1=Gauche Mur t2=Droite Mur t3=Haut Mur t4=Bas Mur P(t1)=0.2, P(t2)=0.2, P(t3)=0.9, P(t4)=0.2. s1 s3 s4 s5 s6 s7 s8 s9 Abdeslam BOULARIAS - 26 June 2006
La représentation prédictive des états • Travaux précédents: • Deterministic Finite State Automata: Rivest & Shapire, 1987. • Rajouter le stochastique: Herbert Jaeger, 1999. • Rajouter les actions: Littman, Sutton, & Singh, 2002 • Un PSR est un ensemble fini de tests de base Q, tel que: • En posant • Si est linéaire alors: Abdeslam BOULARIAS - 26 June 2006
La représentation prédictive des états • Le modèle PSR est génératif car à chaque nouvelle action et observation, on mis à jours l’état courant du système. • Donc les paramètres du modèle sont : • Le vecteur initial p(Q/ Ф). • Les vecteurs mao. • Les vecteurs maoqi. Abdeslam BOULARIAS - 26 June 2006
La matrice de la dynamique d’un système • Cette matrice représente le système lui-même, et pas un modèle. • Tout modèle correcte du système doit être en mesure de la générer. • La dimension linéaire N d’un système est le rang de sa matrice de dynamique. t0 t1 t2 …. ti…. Q=p(qi/hj) N h0=Ф h1 h2 . . hi . p(t1) p(t1/h1) p(t2/h2) . . p(ti/hi) . p(t0) p(t0/h1) p(t0/h2) . . p(t0/hi) . Abdeslam BOULARIAS - 26 June 2006
La matrice de la dynamique d’un système • L’ordre de tous les tests possibles: • Les propriétés des prédictions de chaque ligne de D. hi hi Abdeslam BOULARIAS - 26 June 2006
La représentation prédictive des états • Théorème: N’importe quel système dynamique de dimension finie N, peut être modélisé par un PSR à N tests. • Preuve: Soit D la matrice du système, et Q la matrice formée par N vecteurs colonnes linéairement indépendants. Donc les tests du PSR correspondront aux N vecteur colonnes indépendants. Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs • Théorème:N’importe quel système dynamique représenté par un POMDP à N états, peut être représenté par un PSR avec au plus N tests, chacun de taille inférieure ou égale à N. • Preuve:Dans les POMDPs, l’état actuel du système est représenté par le vecteur b. Suite à une action et une observation, la mise à jours de b se fait comme suit: La matrice U suivante, permet de représenter les probabilités des tests selon l’état actuel. t0 t1 t2 …. ti…. s0 sn P(t0/s0) …. P(ti/so)…. Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs • Preuve (Suite):Si dans la matrice U, les vecteurs de la sous-matrice L forment un noyau, alors ces vecteurs forment aussi un noyau dans la matrice de la dynamique D. En effet: Donc, les vecteurs de L peuvent être utilisés comme tests de base pour le PSR. Étant donné que la matrice U a n lignes, alors le nombre maximale de vecteurs linéairement indépendants ne peut pas dépasser n. Résultat: Le PSR construit à partir de la matrice U ne peut pas avoir plus de n tests. Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs • Preuve (Suite):Puisque toute extension d’un test linéairement dépendant produit un nouveau test qui est aussi linéairement dépendant, alors la taille d’un test ne peut pas dépasser le nombre maximum de tests, soit n. • L’algorithme suivant (Littman, Sutton & Singh 2002) permet de construire un PSR à partir d’un POMDP. Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs • Théorème:Un POMDP a k états ne peut pas modéliser un système de dimension linéaire supérieure à k. • Preuve:La matrice de la dynamique D du système représenté par un POMDP est produite comme suit: Donc le rang de D ne peux pas dépasser max(rang(B),rang(U))=k. • De plus, Jaeger (1998) a présenté un système à dimension linéaire finie qui ne pas être représenté par aucun POMDP avec un nombre des états fini. Abdeslam BOULARIAS - 26 June 2006
Modèles n-markoviens • Théorème: Un modèle n-markovien ne peut pas représenter un système ayant une dimension linéaire supérieure à k=(|A||O|)n. • Preuve: Dans les modèles n-markoviens la probabilité P(t/h) ne dépend que du suffixe de h de taille inférieure ou égale à n. Puisque il y’a exactement (|A||O|)n historiques de taille inférieure ou égale à n, alors la matrice D de la dynamique du système contient au plus (|A||O|)n lignes différentes, donc son rang doit être inférieur ou égale à (|A||O|)n . Abdeslam BOULARIAS - 26 June 2006
Modèles n-markoviens • Théorème: Certains systèmes à dimension finie ne peuvent pas être représentés par aucun modèle n-markovien. • Preuve: Dans une matrice de rang fini, on peut avoir toutes les lignes différentes. Abdeslam BOULARIAS - 26 June 2006
Les PSRs Non-Linéaires • Les PSRs non linéaire peuvent être représentés par un nombre réduit de tests par rapport au nombre d’états des POMDPs. • Exemple: Le problème de float-reset Les deux tests Reset1 et Float0Reset1 suffisent pour déterminer l’état actuel du système, car après chaque action Float depuis le dernier Reset, ils prennent des valeurs successives de la suite: 1 0.5 0.5 0.375 0.375 0.3125 0.3125… R=1 O=1 R=1 O=o R=1 O=o R=1 O=o R=1 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o Abdeslam BOULARIAS - 26 June 2006
Les PSRs Non-Linéaires • Le registre à décalage: • Représenté en POMDPs avec 2n états. • Avec les PSRs, il faut seulement n tests: D1,DD1, DDD1, DDDD1, … , DDDD ….D 1 n n-1 3 2 1 0 1 1 0 1 0 n fois Réduction exponentielle de l’espace des états Abdeslam BOULARIAS - 26 June 2006
Le modèle PSR • Modèles k-markovien < POMDPs à k états < PSRs à k tests = Systèmes dynamiques de dimension k. • Découverte des tests de base à partir des données expérimentales. • Apprentissage des paramètres du PSR étant donné les tests de base et les données expérimentales. Abdeslam BOULARIAS - 26 June 2006
Apprentissage des tests de base • Si on dispose de la matrice D alors: • Sinon, estimer les probabilités de la matrice par simulation Monte Carlo (avec la méthode suffix-history). t0 t1 t2 …. ti…. h0=Ф h1 h2 . . hi . p(t1) p(t1/h1) p(t2/h2) . . p(ti/hi) . p(t0) p(t0/h1) p(t0/h2) . . p(t0/hi) . Abdeslam BOULARIAS - 26 June 2006
Apprentissage des tests de base P(t2) • Si on dispose de la matrice D alors: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P(t1) P(t2) ne dépend pas deP(t1) Abdeslam BOULARIAS - 26 June 2006
Apprentissage des tests de base P(t2) • Si on dispose de la matrice D alors: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P(t1) P(t2) ne dépend pas deP(t1) Abdeslam BOULARIAS - 26 June 2006
Apprentissage des tests de base . . P(t2) • Si on dispose de la matrice D alors: . . . . . . . . . . . . . . . . P(t1) P(t2) dépend pas deP(t1) Abdeslam BOULARIAS - 26 June 2006
Apprentissage des tests de base . . P(t2) • Si on dispose de la matrice D alors: . . . . . . . . . . . . . . . . P(t1) P(t2) dépend pas deP(t1) Abdeslam BOULARIAS - 26 June 2006
PSRs et Options • Une option est une macro-action: une politique pour atteindre un objectif intermédiare. Abdeslam BOULARIAS - 26 June 2006
PSRs et Options • Un test avec les options est de la forme suivante: t=A1o1A2o2.. Akok Tel que o est une observation, et A est une action ou une option. Abdeslam BOULARIAS - 26 June 2006
PSRs et Options • Exemple: Une grille de 9*9 nécessite (9-1)+(9-1)=16 tests sans options Abdeslam BOULARIAS - 26 June 2006
PSRs et Options • Exemple: Une grille de 9*9 nécessite (3-1)+(3-1)+(3-1)=6 tests avec options Abdeslam BOULARIAS - 26 June 2006
Quelques questions • Comment planifier avec les PSRs en connaissant seulement les tests de base, et sans connaitre les probabilités? • Comment planifier et construire le modèle en même temps? • Question théorique: C’est quoi le nombre minimal de tests nécessaires pour représenter un environnement donné? Abdeslam BOULARIAS - 26 June 2006
Références • James, M. R., & Singh, S. (2004). Learning and discovery of predictive state representations in dynamical systems with reset. Proceedings of the 21st International Conference on Machine Learning (ICML) (pp. 719–726). • Littman, M., Sutton, R. S., & Singh, S. (2002). Predictive representations of state. Advances in Neural Information Processing Systems 14 (NIPS) (pp. 1555–1561). MIT Press. • McCracken, P., & Bowling, M. (2006). Online learning of predictive state representations. Advances in Neural Information Processing Systems 18 (NIPS). MIT Press. To appear. • Singh, S., James, M. R., & Rudary, M. R. (2004). Predictive state representations: A new theory for modeling dynamical systems. Uncertainty in Artificial Intelligence: Proceedings of the Twentieth Conference (UAI) (pp. 512–519). • Singh, S., Littman, M., Jong, N., Pardoe, D., & Stone, P.(2003). Learning predictive state representations. Proceedings of the Twentieth International Conference on Machine Learning (ICML) (pp. 712–719). • Wiewiora, E. (2005). Learning predictive representations from a history. Proceedings of the 22nd International Conference on Machine Learning (ICML) (pp. 969–976). • Wolfe, B., James, M. R., & Singh, S. (2005). Learning predictive state representations in dynamical systems without reset. Proceedings of the 22nd International Conference on Machine Learning (ICML) (pp. 985–992). • Bowling, M., McCracken, P., James, M., Neufeld J., & Wilkinson, D. (2006). Learning predictive state representations using non-blind polices. ICML 2006 Abdeslam BOULARIAS - 26 June 2006