Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage

Pourquoi les réseaux de neuronesde type « perceptron multicouche »conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/

RNA de type PMC y = W f ( W f (W X) ) 2 1 1 3 2

Motivations • RNA de type PMC : si ça marche, il doit y avoir un argument mathématique ! • Une machine qui apprend (pour « comprendre » ou « résoudre ») argument biologique ou mathématique • Poser (formaliser) le problème « d’apprentissage à partir d’exemples » • universalité • contrôle de la complexité • local vs global • dimensionnalité • hyper paramètre : • structure vs « adaptation »

Le problème d’apprentissage • Des variables explicatives : X, et des variables à expliquer : Y • (observées) (à prédire) • des variables aléatoires : (X,Y) • une loi jointe (inconnue) • une fonction coût • une fonction cible r(x)= E(Y|X=x) • un échantillon (xi,yi) i=1,n Construire , un estimateur de la fonction r

Le problème d’apprentissage • Des variables explicatives : X, et des variables à expliquer : Y • (observées) (à prédire) • des variables aléatoires : (X,Y) • une loi jointe (inconnue) • une fonction coût • une fonction cible r(x)= E(Y|X=x) • un échantillon (xi,yi) i=1,n R (une dimension) Construire , un estimateur de la fonction r

Données : (xi,yi) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant ... Apprentissage à partir d'exemples

B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ?

B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ? Cemp = 0 minimiser Cempce n’est pas forcément minimiser EP

Ce problème est mal posé EP est instable B est trop grand Il faut introduire un a priori compactifier = régulariser (Tikhonov 63, Groetsch 93) Stabilisateur (pénalisation), Arrêt de la minimisation, Perturber les entrées,... Minimiser dans un sous ensemble F de B M.R.E.: comment stabiliser ?deux principes.

Minimisation du risque empirique f ..f .. f 1 2 3 Mesure de Qualité

Minimisation du risque empirique pas bon f ..f .. f 1 2 3 Mesure de Qualité

Minimisation du risque empirique pas bon ..bon .. moyen f ..f .. f 1 2 3 Mesure de Qualité

 : FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données

 : FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données Qualité a priori

 : FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données Qualité a priori Roberval

(f) mesure la “qualité” de f Exemple d’a priori Interprétation Bayésienne

(f) mesure la “qualité” de f Exemple d’a priori Fourier Interprétation Bayésienne

Choix de l’a priori 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 0 X -4 -2 0 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière »

Choix de l’a priori 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 0 X -4 -2 0 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière » Qualité

Choix de l’a prioridérivée de Radon-Nikodym Un exemple

exemple

Solution : r(x) = Arg r(x) = r (x) + r (x) « locale »(r ) = 0 les a priori des perceptrons multicouches tanh(x) : “globale” (tanh) = 0 n 1 2 min S |yi-f(xi)| (f) i Choix de (f)a priori ^ 2 f F ^ ^ ^ l k ^ k

Minimisation du risque régularisé dérivée directionnelle

|Qf de Q à G Q*Q Q*Q Ker(Q)

|Qf de Q à G Q*Q A PRIORI Q*Q Ker(Q) Solution

estimation des c

y 0 G +  I c d = K K’ 0 Estimation des c et des d n+k n 1 n n+k

Exemple

r(x) = r (x) + r (x) R.B.F + P.M.C Un cadre théorique possible ^ ^ ^ k l Une Solution Mixte

Perspectives • cadre théorique pour les réseaux de neurones • mesures signées • multidimensionnel, • intégration des données (x et y) dans le choix de m, • nouveaux algorithmes d ’apprentissage (SVM, …), • moins d’erreur : des bornes ! • intégrer une mesure de complexité,

f = Qf Q*Q G =  f(x) = S ci G(xi,x) + S dj Kerj(x) moindres carrés : (G +  I) c = y Noyau équivalent : f(x) = S yi K(xi,x) Matrice de lissage : f(xi) = S y Régression spline et a priori

Cout quadratique Cout absolu Cout relatif absolu Relatif quadratique Quantiles Fixé par l’utilisateur, ... Les autres fonctions couts nom contraste fonction cible r(x) = E(Y|X=x)

Ce problème est mal posé car B est trop grand ! existence d’une solution unicité stabilité de l’erreur en prédiction EP si (xi,yi) change un peu, EP varie peu Minimisation du Risque Empirique (M.R.E.)

Minimisation risque empirique Minimisation du risque structurel Régulariser : choisir F tel que M.R.E. soit stable Choix de F : Minimisation du risque Structurel

{ 1 2 3 Minimisation du risque structurel 1 - Choix de F -F est fonction de l’échantillon et du problème, - pratiquement, {Fm} : contrôle de la complexité. 2 - Estimation de l’erreur de prédiction - borne théorique, - par rééchantillonnage, - ensemble test. 3 - Régulariser : introduire un a priori (Groetsch 93) - stabilisateur (pénalisation, Weigend 91), - perturber les entrées (régulariser l’opérateur, Plaut 86), - arrêt de la minimisation (Amari 95).

Moindrescarrés

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage

Presentation Transcript

Diabetes and Renal Disease

Initiation Réseaux

Lire des œuvres intégrales : parcours et réseaux à l’école

LA GPEEC* A L’HÔPITAL

Chapitre 6

Echantillonnage : L’oscilloscope

Le développement des qualités physiques au collège : Quand ? Comment ? Pourquoi ?

Réseaux de neurones artificiels « programmation par l’exemple »

Programmation Réseaux Illustration : Les Sockets en Java

Perceptron Learning

stratégie d’entreprise et innovation séminaire 1

Les Réseaux

L ’Electronique Haute Fréquence:

Cours 4MMCSR - Codage et sécurité des réseaux

Cours réseau: Réseaux sans fil

Apprentissage Artificiel mise en perspective d’un demi-siècle d’évolution

Les réseaux

L’entrée l’apprentissage de l’écrit

Optimisation dans les réseaux

Les différentes théories de l’apprentissage

Neural Networks

Réseaux sans fil - Wifi