880 likes | 997 Views
Comparaison et sélection Bayésienne de modèles. Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009 http://julien.diard.free.fr Julien.Diard@upmf-grenoble.fr. Correctif Ernst & Banks. Cas mono-modal. Integration visuo-haptique. 0%. 67%.
E N D
Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009 http://julien.diard.free.fr Julien.Diard@upmf-grenoble.fr
Integration visuo-haptique 0% 67% 133% 200%
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
V1=R V1=B Variable cachée V1 = {Bleu, Rouge} 10
P(y | [V1=R]) P(y | [V1=B]) 11
P(y | [V1=R] [V2=R]) V2 = {Bleu, Rouge} P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 12
Digression : entropie • Déf : • Exemple : [Shannon, 1948] 13
Variables cachées, connaissance et entropie • Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 15
Prédiction de la prochaine valeur ? P(y) P(y | [V1=B] [V2=B]) 16
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Devinettes • Quel est le suivant ? • {1, 3, 5, 7, 9, 11, ?} • {1, 1, 2, 3, 5, 8, 13, ?} • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}
Réponses • {1, 3, 5, 7, 9, 11, ?} 42 • {1, 1, 2, 3, 5, 8, 13, ?} 42 • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?} 42
Devinette n° 2 • Combien de méthodes pour définir une relation mathématique ?
Combien de méthodes pour définir une relation mathématique ? • Par fonction analytique f • E F • x | f(x) • Par extension • Ensemble de points • (pas pratique pour un ensemble infini)
Quelle méthode pour la devinette ? • Passage de points à une fonction • Utilisation de la fonction pour prédire le point suivant • Modélisation • Passage de points à un modèle • Utilisation du modèle pour prédire le point suivant
Modélisation • Définition d’une classe de modèles • Sélection du modèle • Qui maximise une mesure donnée • Méthode très générale ! • Machine learning • Réseau de neurone • Algorithmes génétiques • Apprentissage bayésien • Curve fitting • Optimisation
Mesures de qualité de modèles • Falsifiability • Existe-t-il des observations incompatibles ? • Explanatory adequacy • Make sense of the data but also established findings • Interpretability • Réifiabilité : les paramètres sont liés à d’autres processus • Faithfulness • La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation • Goodness of fit • Complexity (or simplicity) • Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)
Fit vs complexity • Fit to regularity • Intéressant à modéliser • Fit to experimental noise • Pas intéressant
Théorème • Par n points passe un unique polynôme de degré n-1 • n points (ou contraintes) • Polynôme degré n-1 a n paramètres • f(x) = ax2 + bx + c • Par deux points passe une unique droite • Par trois points passe une unique parabole
Théorème • Par n points passe un unique polynôme de degré n-1 • Idem développement limité de Taylor • Idem Transformée de Fourier • avec assez de paramètres, on approxime tout
Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle • M1 : y = sin(cos(ax))aexp(-bx)/xb • M2 : y = axb • M3 : y = ax + b a=12 b=1
Fonctionnelle de Tikhonov • Mesure à minimiser • R(M, Δ) = GM(Δ) + λ H(M) • GM(Δ) mesure de fit • H(M) mesure de complexité (indépendante de Δ) • λ : poids relatif • Tradeoff a résoudre : complexity regularization (idem en machine learning)
Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • Mesure de divergence entre distribution de probabilité D • D(f,g) > D(f,f)=0 si f ≠ g
Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • MT est évidemment inconnu
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Cross-validation (CV) • Estimer la généralisation du modèle sans connaître le vrai modèle • Partitionner les données Δ • Identification de paramètres sur la partie calibration • Estimation de la capacité de généralisation sur la partie validation
Méthodes de CV • Split-sample, hold-out method • Split-half cross-validation • Coupe en deux Δ = Δ1, Δ2 • Estime les paramètres sur Δ1 • Calcule l’erreur de prédiction sur Δ2 e1 • Intervertir Δ1, Δ2, recommencer e2 • Validation croisée • Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2
Méthodes de CV • Leave-one-out cross-validation • Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction • Répéter n fois • Erreur de prédiction moyenne sur les n étapes
Méthodes de CV • K-fold cross-validation • K blocs de taille n/K • Données pour l’identification : K-1 blocs (taille n-n/K) • Données pour la prédiction : 1 bloc (taille n/K) • Idem leave-n/K-out • Choix de K change le résultat
Méthode de CV • Bootstrapping • Tirage avec replacement subsamples au lieu de subsets des données • .632+ bootstrap method • 63,2 % de Δ pour l’identification
Critique de la CV • Large training set overfitting • Small training set underfitting • Trouver le bon découpage • même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov • Rien résolu (mais facile à coder)
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Mesures de distances entre distributions de probabilités • Kullback-Leibler • Distance / divergence de Kullback-Leibler • KL divergence • Information gain • Relative entropy • Cross entropy • Mutual information
KL divergence • Pas une mesure de distance • D(p,q) ≠ D(q,p) • D(p,q) > 0 pour tout p,q • D(p,q) = 0 ssi pk = qk pour tout k
Cross entropy • Entropie H(p), cross-entropie H(p,q) • Relation avec la KL divergence
Mutual information • mesurée en bits • I(X,Y) = I(Y,X) • I(X,Y) ≥ 0