320 likes | 464 Vues
Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé. Adrien Baranès. Inria Bordeaux Sud-Ouest Equipe-Projet Flowers. Université P.&M. Curie, Paris. Robotique traditionnelle. Utilisation d’un modèle du monde. Machine capable de très bien effectuer un nombre limité de taches.
E N D
Algorithmes deCuriosité Adaptative en Apprentissage Auto-Supervisé Adrien Baranès InriaBordeaux Sud-Ouest Equipe-Projet Flowers Université P.&M. Curie, Paris
Robotique traditionnelle Utilisation d’un modèle du monde Machine capable de très bien effectuer un nombre limité de taches Robotique développementale Modèle du monde non nécessaire Machine capable de bien effectuer un nombre de taches non limité Apprentissage du fonctionnement de l’espace des configurations
Développement Mental chez la Machine Développement Mental Humain Environnement physique réel Développement prénatal Développement postnatal Développement mental autonome Programme développemental du génome Esprit à la naissance Esprit adulte Programme développemental dans l’esprit de la machine jeune Programme développemental dans l’esprit adulte
Développement Mental Autonome ? Comment l’ enfant s’intéresse t-il aux choses ? Comment différencier différentes situations ? Qu’est-ce qui rend une situationintéressante? Qu’est-ce que la curiosité ?
Motivations intrinsèques : Théories en psychologie White (1959) : Exposition des formes basiques de motivations Berlyne (1960), Csikszentmihalyi (1996) : Recherche de situations nouvelles, surprenantes, incongrues, cognitivement dissonantes… Anxiété Position optimale de Flow Challenges Ennui Qualifications
Motivations intrinsèques : Neurosciences Dayan & Belleine (2002), Kakade and Dayan (2002) : Les circuits dopaminergiques pourraient être impliqués dans le contrôle de comportements d’exploration et de recherche de nouveauté • Horvitz (2000) : • Certaines réponses dopaminergiques peuvent être interprétées comme signalant des erreurs en prédictions sensorielles • Sutoo & Akiyama (2004) • Découverte de l’augmentation de la transmission de dopamine lors d’une écoute musicale
Comment implémenter un système de Motivations Intrinsèques dans un Robot ?
Avoir envie de rechercher, d’explorer ce qu’on ne sait pas Qu’est-ce qu’être curieux ? Un robot peut-il savoir qu’il ne sait pas ?
Le monde vu par le Robot Instant t Instant t+1 Signal sensoriel 1 Machine de Prédiction Signal sensoriel 2 (Réseaux neuronaux, k-ppv, SVM..) … Signal moteur 1 Signal moteur 2
Quantité d’apprentissage Prédiction de l’état sensoriel pour l’instant t+1 S’(t+1) Erreur en prédiction : E(t) = (S’(t+1) – S(t+1))² - Evaluation des performances immédiates Etant sensoriel réel à l’instant t+1 S(t+1)
Progrès en apprentissage : Diminution des Erreurs ? Erreur de prédiction Sommes nous dans un même contexte sensorimoteur ? Dans une unique situation ? Temps Notion d’Intérêt On calcule la dérivée des erreurs au cours du temps
Découpe récursive de l’espace sensorimoteur Vocalisation Vision Marche Ecoute
Objectifs Proposer des moyens de découpe capable de correspondre aux différences entre les situations Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme Comment sélectionner l’action qui apporte le plus de progrès ?
Mode de découpe des régions : Selon les Dérivées Taux d’erreur Temps
Espace Sensorimoteur 1D Niveau de difficulté de l’apprentissage Bruit Difficulté croissante Bruit Sorties Entrées Sensorimotrices
Objectifs Proposer des moyens de découpe capable de correspondre aux différences entre les situations Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme Comment sélectionner l’action qui apporte le plus de progrès ?
Méthodes d’exploration Dans 30% des cas : Exploration Uniforme, Sinon : Meilleure Dérivée Dérivées Proportionnelles Minimisation de l’Erreur en Exploration Minimisation de l’Erreur en Exploitation Considération de l’ennui Exploration prudente
Comparaison des résultats Mode de comparaison des résultats : le Taux d’Erreur Base de comparaison : Exploration uniforme de l’espace 4% Uniforme 0.5% Meilleure dérivée 1000 Nombre d’itérations 10000
Comparaison des résultats Mode de sélection : Dérivées proportionnelles 4% Uniforme Meilleure dérivée Dérivées proportionnelles 0.5% 1000 Nombre d’itérations 10000
Comparaison des résultats Mode de sélection : Minimisation de l’erreur en Exploration Uniforme 4% Meilleure dérivée Dérivées proportionnelles 0.5% Minimisation de l’erreur 1000 Nombre d’itérations 10000
Objectifs Proposer des moyens de découpe capable de correspondre aux différences entre les situations Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme Comment sélectionner l’action qui apporte le plus de progrès ?
Aspect Comportemental Temps total passé à l’apprentissage de l’espace sensorimoteur Difficulté croissante Itérations Espace Sensorimoteur
Conclusion et Perspectives Mode de découpe de régions sensorimotrices Politiques de choix des régions Outils de visualisation du comportement de l’IAC Analyse du comportement de l’algorithme dans des dimensions supérieures Effectuer des taches de Visual-Servoing & comparaison avec les algorithmes existants Lien avec la théorie des options