1 / 93

Comparaison et sélection Bayésienne de modèles

Comparaison et sélection Bayésienne de modèles. Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 30/11/2009 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr. Plan. Modélisation : choix des variables Comparaison et sélection de modèles

varian
Download Presentation

Comparaison et sélection Bayésienne de modèles

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 30/11/2009 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr

  2. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  3. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  4. Importance des variables cachées

  5. Modélisation d’une série temporelle

  6. P(y)

  7. V1=R V1=B Variable cachée V1 = {Bleu, Rouge} 7

  8. P(y | [V1=R]) P(y | [V1=B]) 8

  9. P(y | [V1=R] [V2=R]) V2 = {Bleu, Rouge} P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 9

  10. Digression : entropie • Déf : • Exemple : [Shannon, 1948] 10

  11. Exemple 2 : P(X), X = {-1, 0, 1} 11

  12. Variables cachées, connaissance et entropie • Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 12

  13. Prédiction de la prochaine valeur ? P(y) P(y | [V1=B] [V2=B]) 13

  14. Pour 2007, [V1=B] et [V2=B] 14

  15. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  16. Sources

  17. Devinette n° 1 • Quel est le suivant ? • {1, 3, 5, 7, 9, 11, ?} • {1, 1, 2, 3, 5, 8, 13, ?} • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}

  18. Réponses • {1, 3, 5, 7, 9, 11, ?}  42 • {1, 1, 2, 3, 5, 8, 13, ?}  42 • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}  42

  19. Devinette n° 2 • Combien de méthodes pour définir une relation mathématique ?

  20. Combien de méthodes pour définir une relation mathématique ? • Par fonction analytique f • E  F • x | f(x) • Par extension • Ensemble de points • (pas pratique pour un ensemble infini)

  21. Quelle méthode pour la devinette ? • Passage de points à une fonction • Utilisation de la fonction pour prédire le point suivant ≅ Modélisation

  22. Précaution • Toute l’activité scientifique n’est pas que la modélisation • Modèle vs. Théorie • Modèle vs. Expérience

  23. Modélisation • Définition d’une classe de modèles • Sélection du modèle • Qui maximise une mesure donnée • Méthode très générale ! • Machine learning • Réseau de neurone • Algorithmes génétiques • Apprentissage bayésien • Curve fitting • Optimisation • Regression data set modélisation set of models set of parameters

  24. Mesures de qualité de modèles • Falsifiability • Existe-t-il des observations incompatibles ? • Explanatory adequacy • Make sense of the data but also of established findings • Interpretability • Réifiabilité : les paramètres sont liés à d’autres processus • Faithfulness • La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation • Goodness of fit • Complexity (or simplicity) • Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)

  25. Mesures de qualité de fit • Residual • Pourcentage de la variance • Percent variance accounted for PVAF • Root mean square deviation RMSD = root mean square error RMSE

  26. Mesures de qualité de fit • Correlation coefficient R2 • Pearson’s sample correlation coefficient • Simple correlation coefficient • Cross-correlation coefficient • Product-moment coefficient • Formes multidimensionnelles • Matricielles • Multiple Correlation Coefficient R

  27. Correlation coefficient

  28. Correlation coefficient • r = 0.816 • Explorer les données !

  29. Fit vs complexity • Fit to regularity • Intéressant à modéliser • Fit to experimental noise • Pas intéressant

  30. Théorème • Par n points passe un unique polynôme de degré n-1 • n points (ou contraintes) • Polynôme degré n-1 a n paramètres • f(x) = ax2 + bx + c • Par deux points passe une unique droite • Par trois points passe une unique parabole

  31. Théorème • Par n points passe un unique polynôme de degré n-1 • Idem • développement limité de Taylor • Transformée de Fourier • avec assez de paramètres, on approxime tout

  32. Fit vs complexity

  33. Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle • M1 : y = sin(cos(ax))aexp(-bx)/xb • M2 : y = axb • M3 : y = ax + b a=12 b=1

  34. Fonctionnelle de Tikhonov • Mesure à minimiser • R(M, Δ) = GM(Δ) + λ H(M) • GM(Δ) mesure de fit • H(M) mesure de complexité (indépendante de Δ) • λ : poids relatif • Compromis à résoudre : complexity regularization (central en machine learning)

  35. Generalizability

  36. Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • Mesure de divergence entre distribution de probabilité D • D(f,g) > D(f,f)=0 si f ≠ g

  37. Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • MT est évidemment inconnu

  38. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  39. Cross-validation (CV) • Estimer la généralisation du modèle sans connaître le vrai modèle • Partitionner les données Δ • Identification de paramètres sur la partie calibration • Estimation de la capacité de généralisation sur la partie validation

  40. Méthodes de CV • Split-sample, hold-out method • Split-half cross-validation • Coupe en deux Δ = Δ1, Δ2 • Estime les paramètres sur Δ1 • Calcule l’erreur de prédiction sur Δ2 e1 • Intervertir Δ1, Δ2, recommencer  e2 • Validation croisée • Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

  41. Méthodes de CV • Leave-one-out cross-validation • Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction • Répéter n fois • Erreur de prédiction moyenne sur les n étapes

  42. Méthodes de CV • K-fold cross-validation • K blocs de taille n/K • Données pour l’identification : K-1 blocs (taille n-n/K) • Données pour la prédiction : 1 bloc (taille n/K) • Idem leave-n/K-out • Choix de K change le résultat

  43. Méthode de CV • Bootstrapping • Tirage avec replacement  subsamples au lieu de subsets des données • .632+ bootstrap method • 63,2 % de Δ pour l’identification

  44. Critique de la CV • Large training set  overfitting • Small training set  underfitting • Trouver le bon découpage • même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov • Rien résolu (mais facile à coder)

  45. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  46. Mesures de distances entre distributions de probabilités • Déf : Une métrique est une fonction g non-négative telle que • Inégalité triangulaire g(x,y)+g(y,z) ≥ g(x,z) • Symétrique g(x,y) = g(y,x) • g(x,x) = 0 • g(x,y) = 0 => x = y

  47. Mesures de distances entre distributions de probabilités • Kullback-Leibler • Distance / divergence de Kullback-Leibler • KL divergence • Information gain • Relative entropy • Cross entropy • Mutual information

  48. KL divergence • Pas une mesure de distance • D(p,q) ≠ D(q,p) • D(p,q) > 0 pour tout p,q • D(p,q) = 0 ssi pk = qk pour tout k

  49. Cross entropy • Entropie H(p), cross-entropie H(p,q) • Relation avec la KL divergence

More Related