1 / 27

Apprentissage

Apprentissage. Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003. Introduction : Pourquoi ?. Approche classique de la conception d’un agent: « L’intelligence » de l’agent est entièrement introduite par le programmeur. MAIS:

xaria
Télécharger la présentation

Apprentissage

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

  2. Introduction : Pourquoi ? • Approche classique de la conception d’un agent: • « L’intelligence » de l’agent est entièrement introduite par le programmeur. • MAIS: • Le programmeur ne connaît pas toujours parfaitement l’environnement de l’agent. • Dans un tel cas, l’apprentissage peut être la seule façon pour un agent d’acquérir les compétences dont il a besoin. • N’est-ce pas là une réelle forme d’autonomie et par le fait même d’intelligence?

  3. Introduction : Comment ? • Apprendre pour un humain: facile! • Pour une machine: difficile!!! • On aura besoin d’algorithmes précis et parfois complexes • L’apprentissage est un vaste domaine qui chevauche l’informatique, les statistiques et les domaines précis des applications

  4. Plan de la présentation • L’apprentissage: aperçu général • Modèle général d’un agent qui apprend • Présentation de quelques techniques d’apprentissage • L’apprentissage dans les systèmes multi-agents • De l’apprentissage mono-agent à multi-agents • Qu’apprend un agent dans les SMA ? • Caractéristiques multi-agents des apprentissages • Conclusion

  5. Objectifs de l’apprentissage • Acquisition d’une connaissance explicite par un système informatique  • Construction de nouvelles connaissances ou amélioration de connaissances déjà existantes [inférence]  • « Les perceptions [d’un agent] ne devraient pas seulement lui servir à choisir ses actions mais aussi à améliorer ses capacités à agir » [Russell & Norvig] Objectif :améliorer les performances du système

  6. Modèle d’un agent qui apprend Standard de performance E n v i r o n n e m e n t Senseurs Unité de critique feedback changements Module de performance Module d’apprentissage connaissances objectifs d’apprentissage Générateur de problèmes Actions Agent Source: Russell & Norvig

  7. Les formes d’apprentissage • Supervisé • Un exemple de « la bonne solution » est donné pendant une phase d’entraînement • Utilisé pour la classification, les régressions, estimation de probabilités conditionnelles • Par renforcement • Le système n’a pas accès à des exemples; il a cependant un feedback sur ses actions • Utilisé pour le contrôle des robots

  8. Apprentissage supervisé - Exemple intuitif - Une image = profil d’un cas Anne Exemple test Jean ( , ?) Maude Qui est-ce? Eric Paul Ensemble des exemples d’entraînement {(visage, identité)} Source: Yoshua Bengio

  9. Apprentissage supervisé- Exemple intuitif (plus proche voisin) - Choisir l’exemple d’apprentissage dont le « profil » (image) est le plus proche de celui de l’exemple test identité =Paul plus proche voisin Source: Yoshua Bengio

  10. Apprentissage supervisé- Deux phases - • La phase d’entraînement • On présente des exemples au système • L’agent « apprend » à partir des exemples • La phase d’application (ou d’utilisation) • Nouvelles situations jamais vues auparavant • On demande à l’agent de généraliser ce qu’il a appris (faire un transfert)

  11. Apprentissage supervisé - Généralisation - • Idée: mémoriser les paires (perception,action) pour ensuite s’en servir afin d’induire l’action à exécuter devant une situation nouvelle • On veut éviter que l’agent apprenne par cœur • Qu’il ne puisse que résoudre des problèmes qu’il a déjà vus • On veut un apprentissage qui lui permette de généraliser • Il doit savoir faire ressortir l’essence des exemples qu’il apprend

  12. Apprentissage supervisé - Généralisation - • Principe de la généralisation par induction • Situation inconnue Induction de h, une approximation (maximisation de la vraisemblance) de la fonction f permettant d’associer une perception à une action • Évaluer h(nouvelle situation) action • Feedback mise-à-jour de la base de connaissances (ou d’exemples)

  13. Apprentissage supervisé - Généralisation - Pointillé : la meilleure réponse possible étant donnée l’entrée (mais inconnue de l’apprenant) Chaque point: un exemple Sortie : valeur à prédire Entrée : profil du cas Source: Yoshua Bengio

  14. Apprentissage supervisé - Généralisation - On apprend par cœurmais ça ne généralise pas bien de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test. Source: Yoshua Bengio

  15. Apprentissage supervisé - Généralisation - On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test Source: Yoshua Bengio

  16. Apprentissage supervisé - Généralisation - Le modèle est suffisamment flexible pour capturer la forme courbe Source: Yoshua Bengio

  17. Apprentissage supervisé - Arbres de décision - • Un arbre de décision permet de représenter un ensemble de fonctions booléennes associées à une activité de prise de décision • Input: situation décrite par un ensemble de propriétés • Output: une décision (oui/non) relative à cette situation • Principe: Propriétés d’une situation Décision à prendre Décision (oui/non)

  18. Apprentissage supervisé - Arbres de décision - Clients Vais-je attendre ??? Aucun Beaucoup Peu Non Oui Temps d’attente <10 >60 30-60 10-30 Non Oui J’ai faim Aller ailleurs Oui Non Oui Non Oui J’ai réservé Aller ailleurs Ven ou sam Oui Oui Non Oui Non Non Oui Non Oui Bar Oui Il pleut Non Oui Non Oui Non Oui Oui Non r Clients(r,Beaucoup)  Temps d’attente(r,10-30)  J’ai faim(r,Non) J’attends(r) Source: Russell & Norvig

  19. Apprentissage supervisé - Apprendre des arbres de décision - • Ensemble d’entraînement • Série d’exemples dans lesquels toutes les propriétés d’une situation sont connues • Comment apprendre un arbre ? • Un exemple => un chemin dans l’arbre • Arbres trop gros • Quoi faire dans des situations inconnues ? • Trouver l’arbre minimal est incalculable • Des heuristiques permettent un compromis entre la taille de l’arbre et la difficulté de calcul

  20. Apprentissage supervisé - Apprendre des arbres de décision - • Les heuristiques d’apprentissage • Classifier les exemples en considérant d’abord les variables les plus importantes: celles qui permettent d’obtenir une décision le plus rapidement • On continue d’introduire des variables permettant d’obtenir une décision à partir des conséquences de sa variable parent • Les exemples impertinents sont éliminés

  21. Apprentissage supervisé - Application des arbres de décision - • Entraînement d’un simulateur de vol • Professeurs : 3 pilotes expérimentés • « Enseignement » : chacun répète 30 fois un vol prédéterminé • 90000 exemples sont créés • Les exemples sont décrits par 20 variables • Résultats • L’élève dépasse ses maîtres!!

  22. Apprentissage supervisé - Réseaux de neurones - • Réseau composé de nœuds reliés entre eux par des arcs auxquels des poids sont associés Exemples

  23. Apprentissage par renforcement • Apprentissage à l’aide d’exemples: • Professeur => exemples • Modèle de l’environnement => faire des prédictions • Fonction d’utilité => évaluer les actions • Mais si on a rien de tout ça ??? • Utiliser les feedback reçus • Aux échecs : gagner constitue une récompense • Au ping pong : chaque point devient une récompense Reinforcement learning

  24. Apprentissage par renforcement Principe: Action Agent Perceptions Évaluation Environnement Positif? Il faut apprendre les meilleurs actions à poseretla façon d’évaluer les perceptions

  25. Apprentissage par renforcement- Applications - • Joueur d’échecs (Samuel 1959-1967) • Utilisation d’une fonction linéaire permettant d’évaluer les différentes positions • Les poids dans cette fonction sont appris par reinforcement learning • Les décisions du joueur virtuel finissait par s’approcher de celles des bons joueurs • Robots • Utilisation dans les SMA

  26. Résumé • L’agent apprend en observant: • l’effet de ses actions • Apprentissage par renforcement • une série d’exemples (supervisé) • Induction d’arbres de décision • Réseaux de neurones

  27. Références • Bengio, Yoshua. Présentation sur les algorithmes d’apprentissage, www.iro.umontreal.ca/~bengioy • Russell, S. et Norvig, P. Artificial Intelligence A Modern Approach, Prentice-Hall, 1995, 932 pages.

More Related