1 / 55

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome. Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet. long-terme. Environnement. action. perception. renforcement. instantané. Construire un agent autonome.

tave
Télécharger la présentation

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Apprentissage de représentation et auto-organisation modulairepour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

  2. long-terme Environnement action perception renforcement instantané Construire un agent autonome • Calculer une stratégie/politique • Exemples • marcher • conduire une voiture • jouer au backgammon

  3. 24 V 50000 V ? Représentation et organisation modulaire Perception brute Représentation Organisation en modules spécialisés Organisation centralisée

  4. S'inspirer d'un système performant • autonome • robuste • "anytime" • dynamique • distribué & parallèle • tolérant aux pannes Algorithmes connexionnistes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle

  5. Objectifs • Montrer que les problèmes consistant à • calculer une stratégie/politique • apprendre une représentation • organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche

  6. Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives

  7. sorties entrées propagation synchrone Loi de Hebb Algorithmes connexionnistes • Connectivité • Activations • Loi(s) d'apprentissage • (A)synchronisme ? Système dynamique généralement complexe à analyser et concevoir !

  8. t=∞ t=1 M M M M M M ... Point fixe Contraction <1 ... Un calcul connexionniste t=0 Activation unités

  9. Un calcul connexionniste • Calcul du point fixe d'une contraction • Solution traditionnelle • Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]

  10. Bilan • Propriétés du calcul du point fixe… • anytime • dynamique • … avec une méthode connexionniste • massivement parallèle • Difficulté : taille du réseau • nombre d’itérations pour approcher le point fixe

  11. Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives

  12. états long-terme T(s,a,s’)=P(s’|s,a) actions instantané transition récompense R(s) Contrôle optimal On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale :  : S → A

  13. Plan : Illustration Actions

  14. Illustration • Récompense

  15. Illustration • Fonction de valeur optimale récompense

  16. Illustration • Politique optimale fonction de valeur optimale

  17. T(s,←,s') s' T(s,↑,s'') s'' V R  ... s Lien avec le connexionnisme

  18. Un calcul dynamique

  19. Apprentissage par renforcement • Problème de contrôle optimal dont on ne connaît pas les paramètres a priori • Estimation des paramètres • Le dilemme exploration/exploitation ? ?

  20. Lien avec le connexionnisme • Dans le réseau • Estimation de R : calculée par chaque unité • Estimation de T : loi d'apprentissage du réseau T(s,←,s') s' T(s,↑,s'') similaire à la loi de Hebb s'' V R  ... s

  21. Bilan • Une architecture connexionniste pour l’apprentissage par renforcement : • Difficulté : taille de l'espace d'états • nombre d’itérations pour le point fixe • estimation de R et T environnement Estimation paramètres Controle π TR SA SATR

  22. Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives

  23. Représentation  Difficile à exploiter

  24. Représentation  Chemin sous-optimal

  25. Représentation  Chemin optimal

  26. Qualité Complexité Qu'est-ce qu'une bonne représentation ?

  27. long-terme instantané Mesure de l’erreur d'approximation • L’erreur d’approximation définie par dépend de l’erreur d’interpolation et est le point fixe de • Calcul de la politique la plus incertaine [Munos, 99]

  28. Mesure de l’erreur • Erreur d’interpolation

  29. Mesure de l’erreur • Erreur d’approximation

  30. Mesure de l’erreur • Politique la plus incertaine

  31. Qualité Spécialisation Généralisation Complexité Réduction de l'erreur

  32. zones d'intérêt Point fixe Réduction de l’erreur • On peut améliorer une approximation... …en faisant une descente de gradient : long-terme instantané

  33. Spécialisation Généralisation Réduction de l’erreur zone d'intérêt

  34. Spécialisation Généralisation Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs

  35. Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs

  36. Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs

  37. Spécialisation Généralisation Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs

  38. Expériences (1/2)

  39. Expériences (1/2)

  40. Expériences (2/2)

  41. Expériences (2/2)

  42. TR App. représentation π TR S Bilan • Une couche fonctionnelle connexionniste supplémentaire environnement Estimation paramètres Controle π TR SA SATR Optimisation du rapport complexité / qualité

  43. Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives

  44. mauvaise représentation bonne représentation Apprentissage de représentation M

  45. Apprentissage de représentation M4 M2 M3 M1 Avoir une seule représentation peut être insuffisant !

  46. Apprentissage de représentations M4 M2 M3 M1

  47. Une approche modulaire M4 M2 M3 M1

  48. Description • L’apprentissage de représentation c’est : • L’auto-organisation modulaire c’est : Problème de classification : nuées dynamiques

  49. Expérience 6 tâches à résoudre 3 modules

  50. Expérience 3 2 1 Module 1 Module 3 Module 2

More Related