930 likes | 1.06k Views
Comparaison et sélection Bayésienne de modèles. Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 30/11/2009 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr. Plan. Modélisation : choix des variables Comparaison et sélection de modèles
E N D
Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 30/11/2009 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
V1=R V1=B Variable cachée V1 = {Bleu, Rouge} 7
P(y | [V1=R]) P(y | [V1=B]) 8
P(y | [V1=R] [V2=R]) V2 = {Bleu, Rouge} P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 9
Digression : entropie • Déf : • Exemple : [Shannon, 1948] 10
Variables cachées, connaissance et entropie • Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 12
Prédiction de la prochaine valeur ? P(y) P(y | [V1=B] [V2=B]) 13
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Devinette n° 1 • Quel est le suivant ? • {1, 3, 5, 7, 9, 11, ?} • {1, 1, 2, 3, 5, 8, 13, ?} • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}
Réponses • {1, 3, 5, 7, 9, 11, ?} 42 • {1, 1, 2, 3, 5, 8, 13, ?} 42 • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?} 42
Devinette n° 2 • Combien de méthodes pour définir une relation mathématique ?
Combien de méthodes pour définir une relation mathématique ? • Par fonction analytique f • E F • x | f(x) • Par extension • Ensemble de points • (pas pratique pour un ensemble infini)
Quelle méthode pour la devinette ? • Passage de points à une fonction • Utilisation de la fonction pour prédire le point suivant ≅ Modélisation
Précaution • Toute l’activité scientifique n’est pas que la modélisation • Modèle vs. Théorie • Modèle vs. Expérience
Modélisation • Définition d’une classe de modèles • Sélection du modèle • Qui maximise une mesure donnée • Méthode très générale ! • Machine learning • Réseau de neurone • Algorithmes génétiques • Apprentissage bayésien • Curve fitting • Optimisation • Regression data set modélisation set of models set of parameters
Mesures de qualité de modèles • Falsifiability • Existe-t-il des observations incompatibles ? • Explanatory adequacy • Make sense of the data but also of established findings • Interpretability • Réifiabilité : les paramètres sont liés à d’autres processus • Faithfulness • La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation • Goodness of fit • Complexity (or simplicity) • Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)
Mesures de qualité de fit • Residual • Pourcentage de la variance • Percent variance accounted for PVAF • Root mean square deviation RMSD = root mean square error RMSE
Mesures de qualité de fit • Correlation coefficient R2 • Pearson’s sample correlation coefficient • Simple correlation coefficient • Cross-correlation coefficient • Product-moment coefficient • Formes multidimensionnelles • Matricielles • Multiple Correlation Coefficient R
Correlation coefficient • r = 0.816 • Explorer les données !
Fit vs complexity • Fit to regularity • Intéressant à modéliser • Fit to experimental noise • Pas intéressant
Théorème • Par n points passe un unique polynôme de degré n-1 • n points (ou contraintes) • Polynôme degré n-1 a n paramètres • f(x) = ax2 + bx + c • Par deux points passe une unique droite • Par trois points passe une unique parabole
Théorème • Par n points passe un unique polynôme de degré n-1 • Idem • développement limité de Taylor • Transformée de Fourier • avec assez de paramètres, on approxime tout
Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle • M1 : y = sin(cos(ax))aexp(-bx)/xb • M2 : y = axb • M3 : y = ax + b a=12 b=1
Fonctionnelle de Tikhonov • Mesure à minimiser • R(M, Δ) = GM(Δ) + λ H(M) • GM(Δ) mesure de fit • H(M) mesure de complexité (indépendante de Δ) • λ : poids relatif • Compromis à résoudre : complexity regularization (central en machine learning)
Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • Mesure de divergence entre distribution de probabilité D • D(f,g) > D(f,f)=0 si f ≠ g
Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • MT est évidemment inconnu
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Cross-validation (CV) • Estimer la généralisation du modèle sans connaître le vrai modèle • Partitionner les données Δ • Identification de paramètres sur la partie calibration • Estimation de la capacité de généralisation sur la partie validation
Méthodes de CV • Split-sample, hold-out method • Split-half cross-validation • Coupe en deux Δ = Δ1, Δ2 • Estime les paramètres sur Δ1 • Calcule l’erreur de prédiction sur Δ2 e1 • Intervertir Δ1, Δ2, recommencer e2 • Validation croisée • Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2
Méthodes de CV • Leave-one-out cross-validation • Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction • Répéter n fois • Erreur de prédiction moyenne sur les n étapes
Méthodes de CV • K-fold cross-validation • K blocs de taille n/K • Données pour l’identification : K-1 blocs (taille n-n/K) • Données pour la prédiction : 1 bloc (taille n/K) • Idem leave-n/K-out • Choix de K change le résultat
Méthode de CV • Bootstrapping • Tirage avec replacement subsamples au lieu de subsets des données • .632+ bootstrap method • 63,2 % de Δ pour l’identification
Critique de la CV • Large training set overfitting • Small training set underfitting • Trouver le bon découpage • même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov • Rien résolu (mais facile à coder)
Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes
Mesures de distances entre distributions de probabilités • Déf : Une métrique est une fonction g non-négative telle que • Inégalité triangulaire g(x,y)+g(y,z) ≥ g(x,z) • Symétrique g(x,y) = g(y,x) • g(x,x) = 0 • g(x,y) = 0 => x = y
Mesures de distances entre distributions de probabilités • Kullback-Leibler • Distance / divergence de Kullback-Leibler • KL divergence • Information gain • Relative entropy • Cross entropy • Mutual information
KL divergence • Pas une mesure de distance • D(p,q) ≠ D(q,p) • D(p,q) > 0 pour tout p,q • D(p,q) = 0 ssi pk = qk pour tout k
Cross entropy • Entropie H(p), cross-entropie H(p,q) • Relation avec la KL divergence