230 likes | 485 Views
Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes. Apprentissage (II). Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble. plan. c’est quoi ? différents types d’apprentissage supervisé les réseaux de neurones le perceptron réseaux plus complexes
E N D
Dynamique des systèmes complexes et applications aux SHS :modèles, concepts méthodes Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
plan • c’est quoi ? • différents types d’apprentissage • supervisé • les réseaux de neurones • le perceptron • réseaux plus complexes • quelques résultats de la théorie de l’apprentissage • différents types d’apprentissage • bayesien • non supervisé • par renforcement mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
input : xN xi s=sgn(w.x) x1 x2 output : w1 wN g w classifieur élémentaire : le perceptron • d’inspiration biologique : « neurone » élémentaire • surface discriminante linéaire : • stabilité d’un exemple : • distance à la surface discriminante avec signe – si mal classé mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
commentaire 1 • inspiration biologique : • McCullock et Pitts (1943) • des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques • Rosenblatt (1962) • une unité binaire peut apprendre à reconnaître des formes : perceptron • Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires • Hopfield (1982) • un réseau d’unités binaires interconnectées avec des poids Jik données par la règle de Hebb, modèlise une mémoire associative mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
algorithme du perceptron • on initialise les poids du perceptron • on parcourt les exemples • si la sortie donnée par le perceptron est incorrecte, on modifie les poids • jusqu’à convergence • convergence assurée seulement si les exemples sont linéairement séparables • si les exemples sont linéairement séparables : infinité de solutions entrée · sortie mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
commentaire 2 • règle de Hebb – modèle de Hopfield : • algorithme du perceptron : k i Jik wi i état du neurone de sortie état du neurone d’entrée mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
exemples non séparables linéairement • problème : • l’algorithme du perceptron ne converge pas • les autres algorithmes convergent mais souvent vers des solutions « non intéressantes » (trop d’exemples mal classés) • deux solutions : • « classiques » : réseaux en couches • « moderne » : Support Vector Machines mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
x1 - w2 w1 w3 x2 + + + - x1 x2 xi xN perceptrons binaires « cachés » • réseau en couches avec unités binaires • permet de représenter des surfaces discriminantes plus complexes • méthode constructive : • on rajoutte des perceptrons cachés un à un : plusieurs heuristiques couche cachée représentations internes mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
w2 couche cachée w1 w3 s=tanh(w.x) x1 x2 xi xN apprentissage d’une fonction réelle • LM = { (xm, ym) }1≤m≤M, xm=(xm1, xm2, …, xmN) ; yme R • neurones cachés à valeurs réelles • peut apprendre toute fonction continue des entrées • à condition que le nombre de neurones cachés soit suffisant • apprentissage : "error backpropagation" • minimisation de l’écart quadratique : • problèmes : • beaucoup de minima locaux : qualité de la solution ? • nombre de neurones cachés : par tâtonnement mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
g perceptron de marge maximale • marge : distance à la surface discriminante de l’exemple le plus proche 2k mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
Support Vector Machines (SVM) • application de l'espace des entrées x vers un espace F de plus grande dimension (feature space) • Support Vector Machine = perceptron de marge maximale dans le feature spaceF • algorithmes efficaces • exemple: mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
théorie de l’apprentissage • question fondamentale : • est-ce que minimiser le nombre d’erreurs garantit qu’on minimise la probabilité de mal classer de nouvelles données ? eg : erreur de généralisation (de prédiction) -> probabilité de faire une erreur de classification sur des entrées autres que les exemples • réponse : • oui, à condition que le nombre d’exemples M soit supérieur à la capacité du réseau • capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples • proportionnelle au nombre de paramètres à déterminer • perceptron ≈ 2N où N est le nombre de poids = dimension des entrées mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
0.5 0.4 eg 0.3 0.2 0.1 0 0 4 6 2 a erreur de prédiction • tâches de classification réalisables et non réalisables : • pour un perceptron : réalisable -> séparable linéairement • comment varie eg en fonction du nombre d’exemples ? • tâche réalisable : • le meilleur algorithme : Bayes (b ≈ 0.5) coeff qui dépend de l’algorithme mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
p(a,b) p(a) p(a) p(b|a) p(a|b) b a p(b) p(b) règle de Bayes • probabilités mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
inférence bayesienne • inférence = apprentissage • modifier les hypothèses en fonction des données (exemples) • cadre probabiliste : • on se donne un modèle des données • perceptron le problème est linéairement séparable • probabilité a priori des paramètres du modèle • en absence de toute autre information : equiprobabilité tous les poids w ont la même probabilité • LM = { (xm,tm) }1≤m≤M • on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
p0(w) inférence des poids d’un perceptron • formule de Bayes : • a priori : • modèle des données • paramétré par les poids w p(w) mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
p(w|LM) p0(w) a priori : p0(w) probabilité des poids a posteriori probabilité a posteriori cte > 0 hyperplans compatibles avec LM probabilité a posteriori = 0 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
p(w|LM) p0(w) classifieur bayesien optimal • comment classer la nouvelle entrée ? • on classe comme la moyenne pondérée des poids (pondérée par la probabilité a posteriori) • dans notre cas : poids équiprobables règle de la majorité perceptron optimal p(w) mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
inférence bayesienne : résumé hypothèse a priori vraisemblance des données paramètres a posteriori (compatibles avec LM) mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II