Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulairepour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

long-terme Environnement action perception renforcement instantané Construire un agent autonome • Calculer une stratégie/politique • Exemples • marcher • conduire une voiture • jouer au backgammon

24 V 50000 V ? Représentation et organisation modulaire Perception brute Représentation Organisation en modules spécialisés Organisation centralisée

S'inspirer d'un système performant • autonome • robuste • "anytime" • dynamique • distribué & parallèle • tolérant aux pannes Algorithmes connexionnistes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle

Objectifs • Montrer que les problèmes consistant à • calculer une stratégie/politique • apprendre une représentation • organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche

Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives

sorties entrées propagation synchrone Loi de Hebb Algorithmes connexionnistes • Connectivité • Activations • Loi(s) d'apprentissage • (A)synchronisme ? Système dynamique généralement complexe à analyser et concevoir !

t=∞ t=1 M M M M M M ... Point fixe Contraction <1 ... Un calcul connexionniste t=0 Activation unités

Un calcul connexionniste • Calcul du point fixe d'une contraction • Solution traditionnelle • Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]

Bilan • Propriétés du calcul du point fixe… • anytime • dynamique • … avec une méthode connexionniste • massivement parallèle • Difficulté : taille du réseau • nombre d’itérations pour approcher le point fixe

états long-terme T(s,a,s’)=P(s’|s,a) actions instantané transition récompense R(s) Contrôle optimal On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale :  : S → A

Plan : Illustration Actions

Illustration • Récompense

Illustration • Fonction de valeur optimale récompense

Illustration • Politique optimale fonction de valeur optimale

T(s,←,s') s' T(s,↑,s'') s'' V R  ... s Lien avec le connexionnisme

Un calcul dynamique

Apprentissage par renforcement • Problème de contrôle optimal dont on ne connaît pas les paramètres a priori • Estimation des paramètres • Le dilemme exploration/exploitation ? ?

Lien avec le connexionnisme • Dans le réseau • Estimation de R : calculée par chaque unité • Estimation de T : loi d'apprentissage du réseau T(s,←,s') s' T(s,↑,s'') similaire à la loi de Hebb s'' V R  ... s

Bilan • Une architecture connexionniste pour l’apprentissage par renforcement : • Difficulté : taille de l'espace d'états • nombre d’itérations pour le point fixe • estimation de R et T environnement Estimation paramètres Controle π TR SA SATR

Représentation  Difficile à exploiter

Représentation  Chemin sous-optimal

Représentation  Chemin optimal

Qualité Complexité Qu'est-ce qu'une bonne représentation ?

long-terme instantané Mesure de l’erreur d'approximation • L’erreur d’approximation définie par dépend de l’erreur d’interpolation et est le point fixe de • Calcul de la politique la plus incertaine [Munos, 99]

Mesure de l’erreur • Erreur d’interpolation

Mesure de l’erreur • Erreur d’approximation

Mesure de l’erreur • Politique la plus incertaine

Qualité Spécialisation Généralisation Complexité Réduction de l'erreur

zones d'intérêt Point fixe Réduction de l’erreur • On peut améliorer une approximation... …en faisant une descente de gradient : long-terme instantané

Spécialisation Généralisation Réduction de l’erreur zone d'intérêt

Spécialisation Généralisation Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs

Spécialisation Généralisation Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs

Expériences (1/2)

Expériences (2/2)

TR App. représentation π TR S Bilan • Une couche fonctionnelle connexionniste supplémentaire environnement Estimation paramètres Controle π TR SA SATR Optimisation du rapport complexité / qualité

mauvaise représentation bonne représentation Apprentissage de représentation M

Apprentissage de représentation M4 M2 M3 M1 Avoir une seule représentation peut être insuffisant !

Apprentissage de représentations M4 M2 M3 M1

Une approche modulaire M4 M2 M3 M1

Description • L’apprentissage de représentation c’est : • L’auto-organisation modulaire c’est : Problème de classification : nuées dynamiques

Expérience 6 tâches à résoudre 3 modules

Expérience 3 2 1 Module 1 Module 3 Module 2

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Presentation Transcript

La norme S88.02 : Un langage pour le contrôle des procédés Batch

Traitement de texte

Lois de Finances pour 2009 Lois de Finances rectificative pour 2008

Les signes radiologiques précoces de l’AVC ischémique

Agent UML

Mécanisme et Infrastructure de l’enseignement

Étude pour SPW-DG03-DSD Présentation des résultats – 09 juillet 2013

Limite des méthodes d'imagerie pour suivre le devenir de l'agent infectieux dans l'hôte

IBS præsentation for

14 juin 2010 Opportunités de financements européens pour vos projets d’ECO-INNOVATION

Module d’auto-formation

Navigation et Réglementation

Comment naviguer dans la présentation ? Les cartes

AOSE

Les différentes théories de l’apprentissage

FBS

Présentation de la formation

Auto-immunity cases

Organisation centrale du mouvement volontaire

Présentation

Fonctionnement et organisation de la comptabilité budgétaire.

Cliquer ici pour passer à la suite