10 likes | 149 Views
Modèle neuromimètique de l’apprentissage par renforcement. Aurélie Lagarrigue Responsable du stage : Claude Touzet. Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical ! Le renforcement permet de prédire des récompense à venir. Modèles.
E N D
Modèle neuromimètique de l’apprentissage par renforcement Aurélie Lagarrigue Responsable du stage : Claude Touzet Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical ! Le renforcement permet de prédire des récompense à venir. Modèles Modèle Dynamique : Carte auto-organisatrice couplée à un apprentissage de type Q-learning modèle non biologiquement plausible Modèle Neuromimétique : Carte auto-organisatrice modèle biologiquement plausible de l ’organisation corticale Un neurone est sélectionné sur la carte qui est le représentant de l’entrée appliquée (vecteur à 17 dimensions : 16 composantes et une valeur d’utilité Q). Durant l’apprentissage, lors de la modification des poids synaptiques du neurone sélectionné, ses voisins modifient aussi les poids de leurs connexions d’après les informations de cette même entrée (vecteur à 17 dimensions). La mise à jour de la connexion (WQ) avec l’utilitéQ se fait suivant l’équation: Q(s)t+1=Q(s)t+(r+max(Q(s’)-Q(s)t) s : situation r : renforcement s’: nouvelle situation 0 < , ≤ 1 Durant l’apprentissage, lors de la modification des poids synaptiques du neurone sélectionné, ses voisins modifient les poids de leur connexions d’après les informations de l’entrée (vecteur à 16 dimensions). La mise à jour de la connexion (WQ) avec l’utilité Q est faite (pour les voisins) en utilisant le poids synaptique de la connexion du neurone gagnant avec la composante Q (n°17). A l’issue de l’apprentissage, les situations voisines sont voisines sur la carte Simulation La prédiction d’achat pour le E-commerce : un exemple complexe d’application du renforcement • Phase d’apprentissage (avec 10 neurones et 10 itérations) • base = comportement des clients lors de 9950 visites du site www.qariofil.com équi-répartition des visites avec achat (+1) sans achat (-1) • 1 VISITE = nombre variable de SEQUENCE 1 SEQUENCE = 16 composantes (8 couples de valeurs : nombre de fois qu’un type de page est vu, durée totale en secondes de la lecture de ce type de age) + 1 composante = Q: valeur d’utilité RENFORCEMENT Phase de test130 visites avec achat 5000 visites sans achat prédiction d’achat à 5 et 10 pages vues: courbes représentant l’évolution des prédictions d’achat et non achat en fonction du seuil. Les données obtenues sont étudiées sous forme de matrice de confusion Prédiction de non achat (%) Prédiction de non achat (%) Prédiction d’achat (%) Prédiction d’achat (%) Matrice de confusion obtenue avec le modèle neuromimétique Nb : nombre de visites considérées -1/-1 : prédiction de non achat pour une visite se terminant par un abandon +1/-1 : prédiction d’achat pour une visite se terminant par un abandon -1/+1 : prédiction de non achat pour une visite se terminant par un achat +1/+1 : prédiction d’achat pour une visite se terminant par un achat Total OK : somme des pourcentages où la prédiction est vrai Total KO : somme des pourcentages où la prédiction est fausse seuil seuil WQ < seuil : non achat WQ ≥ seuil : achat Résultats Diagramme représentant les moyennes (avec écart-type) des pourcentages pour lesquels les prédictions vraies d’achat et non achat sont identiques. Ces étapes sont répétées plusieurs fois afin d’obtenir une validation statistique car les résultats dépendent de l’initialisation aléatoire des poids de la carte auto-organisatrice et aussi de l’ordre (aléatoire) de sélection des exemples de la base d’apprentissage. Les performances des deux modèles sont similaires. Il est donc possible de simuler les effets de la programmation dynamique à l’aide de la notion de voisinage. Le modèle d ’organisation corticale proposé par la carte auto-organisatrice est donc capable - sans ajout ou modification particulière - de tenir compte de récompenses (ou pénalités) retardées dans le temps. Références: Kohonen T., Self-Organisation and Associative Memory, Springer-Verlag, Berlin, 1984. p 188-189 Moe W., 2003. Buying, Searching, or Browsing: Differentiating Between Online Shoppers Using In-Store Navigational Clickstream, Journal of Consumer Psychology, 13(1&2), 29-39 Touzet C., "Q-learning for robots", The Handbook of Brain Theory and Neural Networks (Second Edition), M. Arbib editor, MIT Press, 2003, pp. 934-937.