1 / 109

Cours 5

Cours 5. Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 10/01/2011 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr. Plan des cours. Introduction à la Programmation Bayésienne : incomplétude, incertitude

maxine
Télécharger la présentation

Cours 5

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 10/01/2011 http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr

  2. Plan des cours • Introduction à la Programmation Bayésienne : incomplétude, incertitude • Programmation bayésienne : exemple détaillé • Classes de modèles probabilistes, distributions usuelles, Programmation bayésienne des robots • PBR (suite), Modélisation bayésienne de la perception et de l’action • Comparaison bayésienne de modèles • Compléments : inférence, apprentissage, principe d’entropie

  3. Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables

  4. Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables

  5. Inférence exacte • sommation, propagation des incertitudes • Inférence approximée • décisions intermédiaires (tirage de points), propagation d’une partie des incertitudes

  6. perception stimulus Modélisation de la perception • Perception • Un problème inverse (Poggio, 1984) • Modèle bayésien • Inversion + hypothèse d’indépendance conditionnelle sensations

  7. Humans integrate visual and haptic information in a statistically optimal fashion • Mécanisme d’integration visuo-haptique par fusion de gaussiennes • Utilisé par les humains

  8. Causal inference (Körding et al., 07; Sato et al., 07) • Y a-t-il une source unique, ou deux sources distinctes ?

  9. Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables

  10. Sources

  11. Devinette n° 1 • Quel est le suivant ? • {1, 3, 5, 7, 9, 11, ?} • {1, 1, 2, 3, 5, 8, 13, ?} • {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}

  12. Réponses • {1, 3, 5, 7, 9, 11, ?}  42 • {1, 1, 2, 3, 5, 8, 13, ?}  42 • {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}  42

  13. Devinette n° 2 • Combien de méthodes pour définir une relation mathématique ?

  14. Combien de méthodes pour définir une relation mathématique ? • Par fonction analytique f • E  F • x | f(x) • Par extension • Ensemble de points • (pas pratique pour un ensemble infini)

  15. Quelle méthode pour la devinette ? • Passage de points à une fonction • Utilisation de la fonction pour prédire le point suivant ≅ Modélisation

  16. Précaution • Toute l’activité scientifique n’est pas que la modélisation • Modèle vs. Théorie • Modèle vs. Expérience

  17. Modélisation • Définition d’une classe de modèles • Sélection du modèle • Qui maximise une mesure donnée • Méthode très générale ! • Machine learning • Réseau de neurone • Algorithmes génétiques • Apprentissage bayésien • Curve fitting • Optimisation • Regression data set modélisation set of models set of parameters

  18. Mesures de qualité de modèles • Falsifiability (réfutabilité, pas falsifiabilité !) • Existe-t-il des observations incompatibles ? • Explanatory adequacy • Make sense of the data but also of established findings • Interpretability • Réifiabilité : les paramètres sont liés à d’autres processus • Faithfulness • La qualité du modèle vient de sa structure, pas de propriétés du calcul, ni de la simulation • Goodness of fit • Complexity (or simplicity) • Generalizability (Karl Popper, La connaissance objective, 1985) (Léna Soler, Introduction à l’épistémologie, 2000) (Myung, 2003)

  19. Mesures de qualité de fit • Residual • Pourcentage de la variance • Percent variance accounted for PVAF • Root mean square deviation RMSD = root mean square error RMSE

  20. Mesures de qualité de fit • Correlation coefficient R2 • aka • Pearson’s sample correlation coefficient • Simple correlation coefficient • Cross-correlation coefficient • Product-moment coefficient • Formes multidimensionnelles • Matricielles • Multiple Correlation Coefficient R

  21. Correlation coefficient

  22. Correlation coefficient • r = 0.816 • Explorer les données !

  23. Fit vs complexity • Fit to regularity • Intéressant à modéliser • Fit to experimental noise • Pas intéressant

  24. Théorème • Par n points passe un unique polynôme de degré n-1 • n points (ou contraintes) • Polynôme degré n-1 a n paramètres • f(x) = ax2 + bx + c • Par deux points passe une unique droite • Par trois points passe une unique parabole

  25. Théorème • Par n points passe un unique polynôme de degré n-1 • Idem • développement limité de Taylor • Transformée de Fourier • Somme de noyaux Gaussiens  avec assez de paramètres, on approxime tout

  26. Fit vs complexity

  27. Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle • M1 : y = sin(cos(ax))aexp(-bx)/xb • M2 : y = axb • M3 : y = ax + b a=12 b=1

  28. Fonctionnelle de Tikhonov • Mesure à minimiser • R(M, Δ) = GM(Δ) + λ H(M) • GM(Δ) mesure de fit • H(M) mesure de complexité (indépendante de Δ) • λ : poids relatif • Compromis à résoudre : complexity regularization (central en machine learning)

  29. Generalizability Fit sur les points observés Fit sur les points pas encore observés

  30. Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • Mesure de divergence entre distribution de probabilité D • D(f,g) > D(f,f)=0 si f ≠ g

  31. Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • MT est évidemment inconnu

  32. Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables

  33. Cross-validation (CV) • Estimer la généralisation du modèle sans connaître le vrai modèle • Partitionner les données Δ • Identification de paramètres sur la partie calibration • Estimation de la capacité de généralisation sur la partie validation

  34. Méthodes de CV • Split-sample, hold-out method • Split-half cross-validation • Coupe en deux Δ = Δ1, Δ2 • Estime les paramètres sur Δ1 • Calcule l’erreur de prédiction sur Δ2 e1 • Intervertir Δ1, Δ2, recommencer  e2 • Validation croisée • Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

  35. Méthodes de CV • Leave-one-out cross-validation • Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction • Répéter n fois • Erreur de prédiction moyenne sur les n étapes

  36. Méthodes de CV • K-fold cross-validation • K blocs de taille n/K • Données pour l’identification : K-1 blocs (taille n-n/K) • Données pour la prédiction : 1 bloc (taille n/K) • Idem leave-n/K-out • Choix de K change le résultat

  37. Méthode de CV • Bootstrapping • Tirage avec replacement  subsamples au lieu de subsets des données • .632+ bootstrap method • 63,2 % de Δ pour l’identification

  38. Critique de la CV • Large training set  overfitting • Small training set  underfitting • Trouver le bon découpage • même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov • Rien résolu (mais facile à coder)

  39. Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables

  40. Mesures de distances entre distributions de probabilités • Déf : Une métrique est une fonction g non-négative telle que • Inégalité triangulaire g(x,y)+g(y,z) ≥ g(x,z) • Symétrique g(x,y) = g(y,x) • g(x,x) = 0 • g(x,y) = 0 => x = y

  41. Mesures de distances entre distributions de probabilités • Kullback-Leibler • Distance / divergence de Kullback-Leibler • KL divergence • Information gain • Relative entropy • Cross entropy • Mutual information

  42. KL divergence • Pas une mesure de distance • D(p,q) ≠ D(q,p) • D(p,q) > 0 pour tout p,q • D(p,q) = 0 ssi pk = qk pour tout k

  43. Cross entropy • Entropie H(p), cross-entropie H(p,q) • Relation avec la KL divergence

  44. Mutual information • mesurée en bits • I(X,Y) = I(Y,X) • I(X,Y) ≥ 0

  45. Plan • Résumé + questions ! • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes • Modélisation de la perception et de l’action • Exemple : boucle perception et action de la lecture et l’écriture • Modélisation : choix des variables

  46. En modélisation probabiliste • Un modèle • Point expérimental δ = {x,y} • x condition (VI contrôlée) • y observation dans cette condition (VD) • P(δ) = P(y | x) P(x) • P(δ | θ1) = P(y | x θ1) P(x | θ1) • P(δ | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)

  47. En modélisation probabiliste • Plusieurs modèles • Espace de paramètres Θ = {θ1, θ2, …} • Classe des modèles M = {m1, m2, …} • Un modèle : P(y | x [Θ = θ1] [M = m1]) • Méta-modèle, modèle hiérarchique • P(Δ Θ M)

  48. Méta-modèle

  49. Méta-modèle • Version simplifiée : une seule classe de modèle

More Related