Comparaison et sélection Bayésienne de modèles

Comparaison et sélection Bayésienne de modèles Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 24/02/2009 http://julien.diard.free.fr Julien.Diard@upmf-grenoble.fr

Correctif Ernst & Banks

Cas mono-modal

Integration visuo-haptique 0% 67% 133% 200%

Plan • Modélisation : choix des variables • Comparaison et sélection de modèles • Cadre général : fit, complexité, capacité de généralisation • Méthodes de validation croisée • Apparté : mesures de distance entre distribution de probabilités • Sélection bayésienne de modèles • Sélection probabiliste vs. Bayésienne • Tel monsieur Jourdain… un exemple • Apparté : vocabulaire • Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS • Sélection bayésienne de modèles • Questions ouvertes

Importance des variables cachées

Modélisation d’une série temporelle

P(y)

V1=R V1=B Variable cachée V1 = {Bleu, Rouge} 10

P(y | [V1=R]) P(y | [V1=B]) 11

P(y | [V1=R] [V2=R]) V2 = {Bleu, Rouge} P(y | [V1=R] [V2=B]) [V1=R] P(y | [V1=B] [V2=R]) P(y | [V1=B] [V2=B]) [V1=B] 12

Digression : entropie • Déf : • Exemple : [Shannon, 1948] 13

Exemple 2 : P(X), X = {-1, 0, 1} 14

Variables cachées, connaissance et entropie • Théorème : Les variables cachées apportent de l’information P(y) P(y | [V1=B] [V2=B]) 15

Prédiction de la prochaine valeur ? P(y) P(y | [V1=B] [V2=B]) 16

Pour 2007, [V1=B] et [V2=B] 17

Sources

Devinettes • Quel est le suivant ? • {1, 3, 5, 7, 9, 11, ?} • {1, 1, 2, 3, 5, 8, 13, ?} • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}

Réponses • {1, 3, 5, 7, 9, 11, ?}  42 • {1, 1, 2, 3, 5, 8, 13, ?}  42 • {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}  42

Devinette n° 2 • Combien de méthodes pour définir une relation mathématique ?

Combien de méthodes pour définir une relation mathématique ? • Par fonction analytique f • E  F • x | f(x) • Par extension • Ensemble de points • (pas pratique pour un ensemble infini)

Quelle méthode pour la devinette ? • Passage de points à une fonction • Utilisation de la fonction pour prédire le point suivant • Modélisation • Passage de points à un modèle • Utilisation du modèle pour prédire le point suivant

Modélisation • Définition d’une classe de modèles • Sélection du modèle • Qui maximise une mesure donnée • Méthode très générale ! • Machine learning • Réseau de neurone • Algorithmes génétiques • Apprentissage bayésien • Curve fitting • Optimisation

Mesures de qualité de modèles • Falsifiability • Existe-t-il des observations incompatibles ? • Explanatory adequacy • Make sense of the data but also established findings • Interpretability • Réifiabilité : les paramètres sont liés à d’autres processus • Faithfulness • La qualité du modèle vient de sa structure, pas de propriétés du calcul, de la simulation • Goodness of fit • Complexity (or simplicity) • Generalizability (Léna Soler, Introduction à l’épistémologie, Ellipses, 2000) (Myung 03)

Fit vs complexity • Fit to regularity • Intéressant à modéliser • Fit to experimental noise • Pas intéressant

Théorème • Par n points passe un unique polynôme de degré n-1 • n points (ou contraintes) • Polynôme degré n-1 a n paramètres • f(x) = ax2 + bx + c • Par deux points passe une unique droite • Par trois points passe une unique parabole

Théorème • Par n points passe un unique polynôme de degré n-1 • Idem développement limité de Taylor • Idem Transformée de Fourier • avec assez de paramètres, on approxime tout

Fit vs complexity

Complexité d’un modèle = Nombre de paramètres + Forme fonctionnelle • M1 : y = sin(cos(ax))aexp(-bx)/xb • M2 : y = axb • M3 : y = ax + b a=12 b=1

Fonctionnelle de Tikhonov • Mesure à minimiser • R(M, Δ) = GM(Δ) + λ H(M) • GM(Δ) mesure de fit • H(M) mesure de complexité (indépendante de Δ) • λ : poids relatif • Tradeoff a résoudre : complexity regularization (idem en machine learning)

Generalizability

Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • Mesure de divergence entre distribution de probabilité D • D(f,g) > D(f,f)=0 si f ≠ g

Mesure de generalisation • Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT • MT est évidemment inconnu

Cross-validation (CV) • Estimer la généralisation du modèle sans connaître le vrai modèle • Partitionner les données Δ • Identification de paramètres sur la partie calibration • Estimation de la capacité de généralisation sur la partie validation

Méthodes de CV • Split-sample, hold-out method • Split-half cross-validation • Coupe en deux Δ = Δ1, Δ2 • Estime les paramètres sur Δ1 • Calcule l’erreur de prédiction sur Δ2 e1 • Intervertir Δ1, Δ2, recommencer  e2 • Validation croisée • Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

Méthodes de CV • Leave-one-out cross-validation • Découper en n-1 données pour l’identification, et 1 donnée pour l’erreur de prédiction • Répéter n fois • Erreur de prédiction moyenne sur les n étapes

Méthodes de CV • K-fold cross-validation • K blocs de taille n/K • Données pour l’identification : K-1 blocs (taille n-n/K) • Données pour la prédiction : 1 bloc (taille n/K) • Idem leave-n/K-out • Choix de K change le résultat

Méthode de CV • Bootstrapping • Tirage avec replacement  subsamples au lieu de subsets des données • .632+ bootstrap method • 63,2 % de Δ pour l’identification

Critique de la CV • Large training set  overfitting • Small training set  underfitting • Trouver le bon découpage • même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov • Rien résolu (mais facile à coder)

Mesures de distances entre distributions de probabilités • Kullback-Leibler • Distance / divergence de Kullback-Leibler • KL divergence • Information gain • Relative entropy • Cross entropy • Mutual information

KL divergence • Pas une mesure de distance • D(p,q) ≠ D(q,p) • D(p,q) > 0 pour tout p,q • D(p,q) = 0 ssi pk = qk pour tout k

Cross entropy • Entropie H(p), cross-entropie H(p,q) • Relation avec la KL divergence

Mutual information • mesurée en bits • I(X,Y) = I(Y,X) • I(X,Y) ≥ 0

Comparaison et sélection Bayésienne de modèles

Comparaison et sélection Bayésienne de modèles

Presentation Transcript

La monnaie

LOG 8430: Architecture logicielle et conception avancée

Présentation et analyse des candidatures Edition 2013

Module Test et Qualité de logiciel

Critères de revue microscopique : Propositions GFHC et comparaison ISLH – Sysmex Standard

Quelques tests de comparaison en paramétrique

Assemblée Générale Aix-les-Bains 28 octobre 2011

La comparaison

Management Information Systems

MODELES DE LA COURBE DES TAUX D’INTERET ENSAE - DEA MASE Université Paris IX Dauphine Séance 2

Cours 5

ENTRAÎNEMENT pour l’ASSR 2

Cartes auto-organisatrices pour l’analyse de données Vincent Lemaire

Modélisation bayésienne de la perception et de l’action

Echanges erasmus

Modes de scrutins Électoraux, algorithmes et comparaison

Comparaison et sélection Bayésienne de modèles

Ecritures fractionnaires Quotients

LE PETIT DEJEUNER

Benoit Scherrer

Génétique, morphologie et locomotion

Présentation du programme de Première: thème 3, le siècle des totalitarismes