1 / 88

Comparaison et sélection Bayésienne de modèles

Comparaison et sélection Bayésienne de modèles. Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009 http://julien.diard.free.fr Julien.Diard@upmf-grenoble.fr. Correctif Ernst & Banks. Cas mono-modal. Integration visuo-haptique. 0%. 67%.

kimama
Download Presentation

Comparaison et sélection Bayésienne de modèles

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009 http://julien.diard.free.fr Julien.Diard@upmf-grenoble.fr

  2. Correctif Ernst & Banks

  3. Cas mono-modal

  4. Integration visuo-haptique 0% 67% 133% 200%

  5. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  6. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  7. Importance des variables cachées

  8. Modélisation d’une série temporelle

  9. P(y)

  10. V1=R V1=B Variable cachée V1 = {Bleu, Rouge} 10

  11. P(y | [V1=R]) P(y | [V1=B]) 11

  12. P(y | [V1=R] [V2=R]) V2 = {Bleu, Rouge} P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 12

  13. Digression : entropie • Déf : • Exemple : [Shannon, 1948] 13

  14. Exemple 2 : P(X), X = {-1, 0, 1} 14

  15. Variables cachées, connaissance et entropie • Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 15

  16. Prédiction de la prochaine valeur ? P(y) P(y | [V1=B] [V2=B]) 16

  17. Pour 2007, [V1=B] et [V2=B] 17

  18. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  19. Sources

  20. Devinettes • Quel est le suivant ? • {1, 3, 5, 7, 9, 11, ?} • {1, 1, 2, 3, 5, 8, 13, ?} • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}

  21. Réponses • {1, 3, 5, 7, 9, 11, ?}  42 • {1, 1, 2, 3, 5, 8, 13, ?}  42 • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}  42

  22. Devinette n° 2 • Combien de méthodes pour définir une relation mathématique ?

  23. Combien de méthodes pour définir une relation mathématique ? • Par fonction analytique f • E  F • x | f(x) • Par extension • Ensemble de points • (pas pratique pour un ensemble infini)

  24. Quelle méthode pour la devinette ? • Passage de points à une fonction • Utilisation de la fonction pour prédire le point suivant • Modélisation • Passage de points à un modèle • Utilisation du modèle pour prédire le point suivant

  25. Modélisation • Définition d’une classe de modèles • Sélection du modèle • Qui maximise une mesure donnée • Méthode très générale ! • Machine learning • Réseau de neurone • Algorithmes génétiques • Apprentissage bayésien • Curve fitting • Optimisation

  26. Mesures de qualité de modèles • Falsifiability • Existe-t-il des observations incompatibles ? • Explanatory adequacy • Make sense of the data but also established findings • Interpretability • Réifiabilité : les paramètres sont liés à d’autres processus • Faithfulness • La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation • Goodness of fit • Complexity (or simplicity) • Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)

  27. Fit vs complexity • Fit to regularity • Intéressant à modéliser • Fit to experimental noise • Pas intéressant

  28. Théorème • Par n points passe un unique polynôme de degré n-1 • n points (ou contraintes) • Polynôme degré n-1 a n paramètres • f(x) = ax2 + bx + c • Par deux points passe une unique droite • Par trois points passe une unique parabole

  29. Théorème • Par n points passe un unique polynôme de degré n-1 • Idem développement limité de Taylor • Idem Transformée de Fourier • avec assez de paramètres, on approxime tout

  30. Fit vs complexity

  31. Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle • M1 : y = sin(cos(ax))aexp(-bx)/xb • M2 : y = axb • M3 : y = ax + b a=12 b=1

  32. Fonctionnelle de Tikhonov • Mesure à minimiser • R(M, Δ) = GM(Δ) + λ H(M) • GM(Δ) mesure de fit • H(M) mesure de complexité (indépendante de Δ) • λ : poids relatif • Tradeoff a résoudre : complexity regularization (idem en machine learning)

  33. Generalizability

  34. Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • Mesure de divergence entre distribution de probabilité D • D(f,g) > D(f,f)=0 si f ≠ g

  35. Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • MT est évidemment inconnu

  36. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  37. Cross-validation (CV) • Estimer la généralisation du modèle sans connaître le vrai modèle • Partitionner les données Δ • Identification de paramètres sur la partie calibration • Estimation de la capacité de généralisation sur la partie validation

  38. Méthodes de CV • Split-sample, hold-out method • Split-half cross-validation • Coupe en deux Δ = Δ1, Δ2 • Estime les paramètres sur Δ1 • Calcule l’erreur de prédiction sur Δ2 e1 • Intervertir Δ1, Δ2, recommencer  e2 • Validation croisée • Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

  39. Méthodes de CV • Leave-one-out cross-validation • Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction • Répéter n fois • Erreur de prédiction moyenne sur les n étapes

  40. Méthodes de CV • K-fold cross-validation • K blocs de taille n/K • Données pour l’identification : K-1 blocs (taille n-n/K) • Données pour la prédiction : 1 bloc (taille n/K) • Idem leave-n/K-out • Choix de K change le résultat

  41. Méthode de CV • Bootstrapping • Tirage avec replacement  subsamples au lieu de subsets des données • .632+ bootstrap method • 63,2 % de Δ pour l’identification

  42. Critique de la CV • Large training set  overfitting • Small training set  underfitting • Trouver le bon découpage • même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov • Rien résolu (mais facile à coder)

  43. Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

  44. Mesures de distances entre distributions de probabilités • Kullback-Leibler • Distance / divergence de Kullback-Leibler • KL divergence • Information gain • Relative entropy • Cross entropy • Mutual information

  45. KL divergence • Pas une mesure de distance • D(p,q) ≠ D(q,p) • D(p,q) > 0 pour tout p,q • D(p,q) = 0 ssi pk = qk pour tout k

  46. Cross entropy • Entropie H(p), cross-entropie H(p,q) • Relation avec la KL divergence

  47. Mutual information • mesurée en bits • I(X,Y) = I(Y,X) • I(X,Y) ≥ 0

More Related