1 / 29

DEA Perception et Traitement de l’Information

DEA Perception et Traitement de l’Information. Reconnaissance des formes Apprentissage linéaire S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF. 1. RdF et apprentissage. Les problèmes. Ensemble d’apprentissage (échantillon). 3. A priori sur la nature de la solution. 2.

matsu
Download Presentation

DEA Perception et Traitement de l’Information

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF

  2. 1 RdF et apprentissage Les problèmes Ensemble d’apprentissage (échantillon) 3 A priori sur la nature de la solution 2 A : Algorithme d’apprentissage D(x) =signe(w’x+b) D : Algorithme de Reconnaissance des Formes C’est la forme « y=D(x) » Une forme x (vecteur forme des caractéristiques)

  3. + + + + + + Discrimination Linéaire + + + + + + + Codage {-1,1}, fonction de décision de type « heaviside »

  4. Estimation... et rêve

  5. Stratégies d’estimation • Minimiser les erreurs • moindres carrées • adaline • perceptron • le neurone formel • estimer les paramètres • max de vraisemblance, puis règle de Bayes • minimiser un autre critère • analyse discriminante de Fisher

  6. Moindres carrés X = [x1 ; x2]; X = [X ones(length(X),1)]; yi = [ones(length(x1),1) ; -ones(length(x2),1)]; W = (X'*X)\(X'*yi); west = W(1:2); best = W(3);

  7. Résistance aux « outliers »

  8. Moindre carrés « stochastiques »ADALINE (Widrow Hoff 1960) = D Algorithme itératif de gradient

  9. Algorithme de gradient : illustrationdans le plan w1,w2 Lignes d ’iso-coût : J(W) = constante Minimum du coût w2 + Direction du gradient J’(W) Le gradient est orthogonal aux lignes d ’iso coût : argument à la « Taylor » w1

  10. 3 solutions LE NEURONE FORMEL

  11. Algorithme itératif Stabilisation du coût (erreur relative) nbitemax = 50; k=0; while ((cout > 0) & (k<nbitemax)) K=K+1; ind = randperm(length(X)); for i=1:length(X) Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:); W = W - pas*Dir'; end cout = sum(abs(sign(X*W)-yi)); disp([k cout]); end Randomisation (ok si n grand) Évaluation du coût : n opérations

  12. ADALINE, Ça marche...

  13. ADALINE des fois ça ne marche pas… Solution au sens des moindres carrés

  14. Le Perceptron, des fois ça ne marche pas... ...Quand les exemples ne sont pas linéairement séparables

  15. Règle du perceptron(Rosenblatt 1958) codage

  16. Règle du perceptron(Rosenblatt 1958) • Pas de fonction coût minimisée • preuve de convergence • (dans le cas linéairement séparable)

  17. Règle du perceptron(Rosenblatt 1958)

  18. Convergence des algorithmes de gradient

  19. Performances des algorithmes linéaires Théorème (Vapnik & Chervonenkis, 1974)

  20. Performances des algorithmes linéaires Théorème (Vapnik & Chervonenkis, 1974) borne Probabilité d’erreur précision risque empirique Asymptotiquement « jouable » Malédiction de la dimensionnalité

  21. Maximum de vraisemblance Distance de Mahalanobis

  22. Analyse discriminante de Fisher2 classes Quelle est la direction de l’espace des caractéristiques qui sépare le mieux les deux classes ? Voilà la critère !

  23. Analyse discriminante de Fishermulti classes

  24. Analyse discriminante de Fishermulti classes On recherche les vecteurs propres de la matrice

  25. AD en matlab ind1=find(yi==1); X1=Xi(ind1,:); ind2=find(yi==2); X2=Xi(ind2,:); ind3=find(yi==3); X3=Xi(ind3,:); n1=length(ind1); n2=length(ind2); n3=length(ind3); n = n1+n2+n3; Sw = (n1*cov(X1)+n2*cov(X2)+n2*cov(X3))/n; %AD m1 = mean(X1); m2 = mean(X2); m3 = mean(X3); mm = mean(Xi); Sb = (n1*(m1-mm)'*(m1-mm)+n2*(m2-mm)'*(m2-mm)+n3*(m3-mm)'*(m3-mm))/n; % L = chol(Sw); % Linv = inv(L); % [v l]=eig(Linv*Sb*Linv'); % AD % v = Linv'*v; [v l]=eig(inv(Sw)*Sb); % AD [val ind] = sort(-abs(diag(l))); P = [v(:,ind(1)) v(:,ind(2))]; xi = Xn*P;

  26. Conclusion : discrimination linéaire • Minimiser les erreurs • moindres carrées : erreur quadratique • adaline : erreur quadratique • perceptron : le nombre de mal classé • le neurone formel : les formes frontière • nombre d’erreur : le simplex -> les SVM • estimer les paramètres • max de vraisemblance, puis règle de Bayes • minimiser un autre critère • analyse discriminante de Fisher : REPRESENTATION

  27. Apprentissage bayésien

  28. Malédiction de la dimensionalité • Un problème inatendu • estimation de la matrice de covariance • capacité d’un classifieur linéaire • le problème de l’erreur moyenne !

  29. Estimation du taux d’erreur

More Related