400 likes | 791 Views
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage . Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/. RNA de type PMC. y = W f ( W f (W X) ). 2 . 1. 1. 3 . 2 .
E N D
Pourquoi les réseaux de neuronesde type « perceptron multicouche »conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/
RNA de type PMC y = W f ( W f (W X) ) 2 1 1 3 2
Motivations • RNA de type PMC : si ça marche, il doit y avoir un argument mathématique ! • Une machine qui apprend (pour « comprendre » ou « résoudre ») argument biologique ou mathématique • Poser (formaliser) le problème « d’apprentissage à partir d’exemples » • universalité • contrôle de la complexité • local vs global • dimensionnalité • hyper paramètre : • structure vs « adaptation »
Le problème d’apprentissage • Des variables explicatives : X, et des variables à expliquer : Y • (observées) (à prédire) • des variables aléatoires : (X,Y) • une loi jointe (inconnue) • une fonction coût • une fonction cible r(x)= E(Y|X=x) • un échantillon (xi,yi) i=1,n Construire , un estimateur de la fonction r
Le problème d’apprentissage • Des variables explicatives : X, et des variables à expliquer : Y • (observées) (à prédire) • des variables aléatoires : (X,Y) • une loi jointe (inconnue) • une fonction coût • une fonction cible r(x)= E(Y|X=x) • un échantillon (xi,yi) i=1,n R (une dimension) Construire , un estimateur de la fonction r
Données : (xi,yi) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant ... Apprentissage à partir d'exemples
B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ?
B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ? Cemp = 0 minimiser Cempce n’est pas forcément minimiser EP
B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ? Cemp = 0 minimiser Cempce n’est pas forcément minimiser EP
Ce problème est mal posé EP est instable B est trop grand Il faut introduire un a priori compactifier = régulariser (Tikhonov 63, Groetsch 93) Stabilisateur (pénalisation), Arrêt de la minimisation, Perturber les entrées,... Minimiser dans un sous ensemble F de B M.R.E.: comment stabiliser ?deux principes.
Minimisation du risque empirique f ..f .. f 1 2 3 Mesure de Qualité
Minimisation du risque empirique pas bon f ..f .. f 1 2 3 Mesure de Qualité
Minimisation du risque empirique pas bon ..bon .. moyen f ..f .. f 1 2 3 Mesure de Qualité
: FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données
: FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données Qualité a priori
: FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données Qualité a priori Roberval
(f) mesure la “qualité” de f Exemple d’a priori Interprétation Bayésienne
(f) mesure la “qualité” de f Exemple d’a priori Fourier Interprétation Bayésienne
Choix de l’a priori 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 0 X -4 -2 0 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière »
Choix de l’a priori 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 0 X -4 -2 0 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière » Qualité
Choix de l’a prioridérivée de Radon-Nikodym Un exemple
Solution : r(x) = Arg r(x) = r (x) + r (x) « locale »(r ) = 0 les a priori des perceptrons multicouches tanh(x) : “globale” (tanh) = 0 n 1 2 min S |yi-f(xi)| (f) i Choix de (f)a priori ^ 2 f F ^ ^ ^ l k ^ k
Minimisation du risque régularisé dérivée directionnelle
|Qf de Q à G Q*Q Q*Q Ker(Q)
|Qf de Q à G Q*Q A PRIORI Q*Q Ker(Q) Solution
y 0 G + I c d = K K’ 0 Estimation des c et des d n+k n 1 n n+k
r(x) = r (x) + r (x) R.B.F + P.M.C Un cadre théorique possible ^ ^ ^ k l Une Solution Mixte
Perspectives • cadre théorique pour les réseaux de neurones • mesures signées • multidimensionnel, • intégration des données (x et y) dans le choix de m, • nouveaux algorithmes d ’apprentissage (SVM, …), • moins d’erreur : des bornes ! • intégrer une mesure de complexité,
f = Qf Q*Q G = f(x) = S ci G(xi,x) + S dj Kerj(x) moindres carrés : (G + I) c = y Noyau équivalent : f(x) = S yi K(xi,x) Matrice de lissage : f(xi) = S y Régression spline et a priori
Cout quadratique Cout absolu Cout relatif absolu Relatif quadratique Quantiles Fixé par l’utilisateur, ... Les autres fonctions couts nom contraste fonction cible r(x) = E(Y|X=x)
Ce problème est mal posé car B est trop grand ! existence d’une solution unicité stabilité de l’erreur en prédiction EP si (xi,yi) change un peu, EP varie peu Minimisation du Risque Empirique (M.R.E.)
Minimisation risque empirique Minimisation du risque structurel Régulariser : choisir F tel que M.R.E. soit stable Choix de F : Minimisation du risque Structurel
{ 1 2 3 Minimisation du risque structurel 1 - Choix de F -F est fonction de l’échantillon et du problème, - pratiquement, {Fm} : contrôle de la complexité. 2 - Estimation de l’erreur de prédiction - borne théorique, - par rééchantillonnage, - ensemble test. 3 - Régulariser : introduire un a priori (Groetsch 93) - stabilisateur (pénalisation, Weigend 91), - perturber les entrées (régulariser l’opérateur, Plaut 86), - arrêt de la minimisation (Amari 95).