1.09k likes | 1.24k Views
Cours 5. Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 10/01/2011 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr. Plan des cours. Introduction à la Programmation Bayésienne : incomplétude, incertitude
E N D
Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 10/01/2011 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr
Plan des cours • Introduction à la Programmation Bayésienne : incomplétude, incertitude • Programmation bayésienne : exemple détaillé • Classes de modèles probabilistes, distributions usuelles, Programmation bayésienne des robots • PBR (suite), Modélisation bayésienne de la perception et de l’action • Comparaison bayésienne de modèles • Compléments : inférence, apprentissage, principe d’entropie
Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables
Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables
Inférence exacte • sommation, propagation des incertitudes • Inférence approximée • décisions intermédiaires (tirage de points), propagation d’une partie des incertitudes
perception stimulus Modélisation de la perception • Perception • Un problème inverse (Poggio, 1984) • Modèle bayésien • Inversion + hypothèse d’indépendance conditionnelle sensations
Humans integrate visual and haptic information in a statistically optimal fashion • Mécanisme d’integration visuo-haptique par fusion de gaussiennes • Utilisé par les humains
Causal inference (Körding et al., 07; Sato et al., 07) • Y a-t-il une source unique, ou deux sources distinctes ?
Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables
Devinette n° 1 • Quel est le suivant ? • {1, 3, 5, 7, 9, 11, ?} • {1, 1, 2, 3, 5, 8, 13, ?} • {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}
Réponses • {1, 3, 5, 7, 9, 11, ?} 42 • {1, 1, 2, 3, 5, 8, 13, ?} 42 • {0, 4, 7, 6, 8, 2, 5, 8, 9, ?} 42
Devinette n° 2 • Combien de méthodes pour définir une relation mathématique ?
Combien de méthodes pour définir une relation mathématique ? • Par fonction analytique f • E F • x | f(x) • Par extension • Ensemble de points • (pas pratique pour un ensemble infini)
Quelle méthode pour la devinette ? • Passage de points à une fonction • Utilisation de la fonction pour prédire le point suivant ≅ Modélisation
Précaution • Toute l’activité scientifique n’est pas que la modélisation • Modèle vs. Théorie • Modèle vs. Expérience
Modélisation • Définition d’une classe de modèles • Sélection du modèle • Qui maximise une mesure donnée • Méthode très générale ! • Machine learning • Réseau de neurone • Algorithmes génétiques • Apprentissage bayésien • Curve fitting • Optimisation • Regression data set modélisation set of models set of parameters
Mesures de qualité de modèles • Falsifiability (réfutabilité, pas falsifiabilité !) • Existe-t-il des observations incompatibles ? • Explanatory adequacy • Make sense of the data but also of established findings • Interpretability • Réifiabilité : les paramètres sont liés à d’autres processus • Faithfulness • La qualité du modèle vient de sa structure, pas de propriétés du calcul, ni de la simulation • Goodness of fit • Complexity (or simplicity) • Generalizability (Karl Popper, La connaissance objective, 1985) (Léna Soler, Introduction à l’épistémologie, 2000) (Myung, 2003)
Mesures de qualité de fit • Residual • Pourcentage de la variance • Percent variance accounted for PVAF • Root mean square deviation RMSD = root mean square error RMSE
Mesures de qualité de fit • Correlation coefficient R2 • aka • Pearson’s sample correlation coefficient • Simple correlation coefficient • Cross-correlation coefficient • Product-moment coefficient • Formes multidimensionnelles • Matricielles • Multiple Correlation Coefficient R
Correlation coefficient • r = 0.816 • Explorer les données !
Fit vs complexity • Fit to regularity • Intéressant à modéliser • Fit to experimental noise • Pas intéressant
Théorème • Par n points passe un unique polynôme de degré n-1 • n points (ou contraintes) • Polynôme degré n-1 a n paramètres • f(x) = ax2 + bx + c • Par deux points passe une unique droite • Par trois points passe une unique parabole
Théorème • Par n points passe un unique polynôme de degré n-1 • Idem • développement limité de Taylor • Transformée de Fourier • Somme de noyaux Gaussiens avec assez de paramètres, on approxime tout
Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle • M1 : y = sin(cos(ax))aexp(-bx)/xb • M2 : y = axb • M3 : y = ax + b a=12 b=1
Fonctionnelle de Tikhonov • Mesure à minimiser • R(M, Δ) = GM(Δ) + λ H(M) • GM(Δ) mesure de fit • H(M) mesure de complexité (indépendante de Δ) • λ : poids relatif • Compromis à résoudre : complexity regularization (central en machine learning)
Generalizability Fit sur les points observés Fit sur les points pas encore observés
Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • Mesure de divergence entre distribution de probabilité D • D(f,g) > D(f,f)=0 si f ≠ g
Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • MT est évidemment inconnu
Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables
Cross-validation (CV) • Estimer la généralisation du modèle sans connaître le vrai modèle • Partitionner les données Δ • Identification de paramètres sur la partie calibration • Estimation de la capacité de généralisation sur la partie validation
Méthodes de CV • Split-sample, hold-out method • Split-half cross-validation • Coupe en deux Δ = Δ1, Δ2 • Estime les paramètres sur Δ1 • Calcule l’erreur de prédiction sur Δ2 e1 • Intervertir Δ1, Δ2, recommencer e2 • Validation croisée • Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2
Méthodes de CV • Leave-one-out cross-validation • Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction • Répéter n fois • Erreur de prédiction moyenne sur les n étapes
Méthodes de CV • K-fold cross-validation • K blocs de taille n/K • Données pour l’identification : K-1 blocs (taille n-n/K) • Données pour la prédiction : 1 bloc (taille n/K) • Idem leave-n/K-out • Choix de K change le résultat
Méthode de CV • Bootstrapping • Tirage avec replacement subsamples au lieu de subsets des données • .632+ bootstrap method • 63,2 % de Δ pour l’identification
Critique de la CV • Large training set overfitting • Small training set underfitting • Trouver le bon découpage • même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov • Rien résolu (mais facile à coder)
Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables
Mesures de distances entre distributions de probabilités • Déf : Une métrique est une fonction g non-négative telle que • Inégalité triangulaire g(x,y)+g(y,z) ≥ g(x,z) • Symétrique g(x,y) = g(y,x) • g(x,x) = 0 • g(x,y) = 0 => x = y
Mesures de distances entre distributions de probabilités • Kullback-Leibler • Distance / divergence de Kullback-Leibler • KL divergence • Information gain • Relative entropy • Cross entropy • Mutual information
KL divergence • Pas une mesure de distance • D(p,q) ≠ D(q,p) • D(p,q) > 0 pour tout p,q • D(p,q) = 0 ssi pk = qk pour tout k
Cross entropy • Entropie H(p), cross-entropie H(p,q) • Relation avec la KL divergence
Mutual information • mesurée en bits • I(X,Y) = I(Y,X) • I(X,Y) ≥ 0
Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables
En modélisation probabiliste • Un modèle • Point expérimental δ = {x,y} • x condition (VI contrôlée) • y observation dans cette condition (VD) • P(δ) = P(y | x) P(x) • P(δ | θ1) = P(y | x θ1) P(x | θ1) • P(δ | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)
En modélisation probabiliste • Plusieurs modèles • Espace de paramètres Θ = {θ1, θ2, …} • Classe des modèles M = {m1, m2, …} • Un modèle : P(y | x [Θ = θ1] [M = m1]) • Méta-modèle, modèle hiérarchique • P(Δ Θ M)
Méta-modèle • Version simplifiée : une seule classe de modèle