350 likes | 542 Views
DEA instrumentation et commande. Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF. Buts de la RdF. D : Algorithme de Reconnaissance des Formes. C’est la forme « y=D(x) ». Une forme x (vecteur forme
E N D
DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF
Buts de la RdF D : Algorithme de Reconnaissance des Formes C’est la forme « y=D(x) » Une forme x (vecteur forme des caractéristiques) Nous voulons un algorithme de RdF performant
1 RdF et apprentissage Les problèmes Ensemble d’apprentissage (échantillon) 3 A priori sur la nature de la solution 2 A : Algorithme d’apprentissage D : Algorithme de Reconnaissance des Formes C’est la forme « y=D(x) » Une forme x (vecteur forme des caractéristiques)
Grandes déviations La moyenne n’est pas l’espérance prise en compte de l’enchantillonnage précisionconfiance FréquenceProbabilité d’erreurd’erreur
Grandes déviationsBienaimé Tchebitchev • pour tout P • Démonstration précisionconfiance
Grande déviation 0 -6 -4 -2 0 2 4 6 p : probabilité d’erreur Xi = 1 si on c’est trompé, = 0 sinon confiance = (4n)-1/2 précision
Application :comparaison d’algorithmes Algorithme 1 (adaline) m exemples pour le test Algorithme 2 (perceptron) Donc l’algorithme 1 est meilleur que l’algorithme 2
Application :comparaison d’algorithmes Algorithme 1 (adaline) m exemples pour le test Algorithme 2 (perceptron) Donc l’algorithme 1 est meilleur que l’algorithme 2 ssi
Application :Choix de la taille de l’ensemble test Algorithme 1 (adaline) m exemples pour le test Comment choisir m pour que probabilité d’erreur = ? m 0,05 0,1 500 0,01 50.000 Comment améliorer cette borne ?
Comment améliorer cette borne ? • Améliorer l’inégalité des grandes déviations. • Inégalité de markov • Hoeffding erreur bornée • Chernov Classification • Bernstein • Bennet
Grandes déviationsgénéralisation deBienaimé Tchebitchev • pour tout P • Démonstration Fonction positive h(x)>0
Lemme de Markov • soit (A,,D) un espace probabilisé • soit X une v.a. sur (A,) • soit > 0 • Alors : • Démonstration • comme Bienaymé Tchébychev
Comment choisir h(x) ? Hoeffding Bennett Bernstein
Récapitulons Approximation normale Hoeffding (1963) Bernstein (1946) Bennett (1962)
Exemples 3200 1800 1000 600 500
Estimation de l’erreur d’un classifieur • Avec un ensemble de test • Avec des exemples • validation croisée • bootstrap • Indépendamment des exemples • il faut une borne
Estimation de l’erreur facture • Beaucoup d’exemples : ensemble test DONNEES • Peu d’exemples : le rééchantillonnage TEMPS • Validation croisée • Jackknife • Bootstrap • Analyse théorique : PRECISION
Ensemble test • grandes déviations
Rééchantillonnage • Validation croisée • Jackknife • Bootstrap
Bootstrap Quelle est la loi de ? (comment estimer le biais et la variance d’un estimateur ?) Idée : « observer » la distribution de on tire plusieurs échantillons on calcule plusieurs réalisations de nouvelle idée : créer des échantillons « fictifs » principe Tirage de n points AVEC REMISE X*1 X*2 X*3 … X*i … X*n X1 X2 X3 . Xi . Xn X*1 X*2 X*3 … X*i … X*n Échantillon initial X*1 X*2 X*3 … X*i … X*n X*1 X*2 X*3 … X*i … X*n Young G.A. (1994) Bootstrap: More than a stab in the Dark, Statistical Science 9 pp 382-415
Bootstrap Tirage de n points AVEC REMISE X*1 X*2 X*3 … X*i … X*n X1 X2 X3 . Xi . Xn X*1 X*2 X*3 … X*i … X*n Échantillon initial X*1 X*2 X*3 … X*i … X*n X*1 X*2 X*3 … X*i … X*n Biais : Variance :
Exemple de Bootstrap n = 20; xi=rand(n,1); m = mean(xi); % 0.528 B=200; for b=1:B ind = round(n*rand(n,1)+1/2); mb(b)=mean(xi(ind)); end hist(mb); std(mb) % 0.0676 sqrt(1/12/n) % 0.0645 ind = 13 17 13 8 9 11 5 8 14 19 2 20 4 8 3 1 19 4 16 6 (Fractiles)
Validation par Bootstrap ^ r(x) estimateur P.M.C. + I. B sur l’échantillon initial (x ) Innovation équivalente : = x - r(x ) t ^ t t+1 t ( ( (b (B (x*1 ... (x*b (x* B r*1(x) ... r*b(x) ... r*B(x) Erreur initiale Erreur BS 1 Echantillon BS 2 P.M.C. t t t t t t t ^ ^ ^
T-1 1 T-1 t=1 Validation par Bootstrap • Faire B fois (B 50) • 1 : Générer un nouvel échantillon : x*b(t) ; t = 1:T x*b(t+1) = r(x*b(t)) + b(t) • 2 : Apprendre ce nouvel échantillon : r*b(x) • Biais b : (x(t+1) - r*b(x(t))) - (x*b(t+1) - r*b(x*b(t))) ^ ^ 2 ^ 2 1 T-1 ^ t=1
Théorie des bornes • Avec une probabilité (1 - a), pour tous les : EP(w) <Cemp(w) + (VCdim(B), Cemp(w), n, ) erreur <coût visible + complexité, nb d’exemples, précision • mesure de complexité : • Taille de B ? • Nombre de paramètres ? • dimension de Vapnik - Chervonenkis (pire des cas) • e.g. Dim VC d'un ensemble de fonctions à seuil = taille du plus grand ensemble S pour lequel le système peut implémenter les 2|S| dichotomies sur S.
Un exemplede grande déviation • T une v.a. de bernouilli
Borne sur l’erreur d’apprentissage Théorème (Vapnik & Chervonenkis, 1974)