1 / 11

Prise de décision à paramètre continu Une approche symbolique

Prise de décision à paramètre continu Une approche symbolique. Jeanpierre Laurent Zilberstein Shlomo Charpillet François. Cadre de l’étude. L’approche conventionnelle Un ensemble d’actions discrètes Planification par énumération Limitations Actions réelles souvent continues

halen
Télécharger la présentation

Prise de décision à paramètre continu Une approche symbolique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Prise de décision à paramètre continuUne approche symbolique Jeanpierre Laurent Zilberstein Shlomo Charpillet François

  2. Cadre de l’étude • L’approche conventionnelle • Un ensemble d’actions discrètes • Planification par énumération • Limitations • Actions réelles souvent continues •  Discrétisation • Peu d’actions « représentatives » • Nombreuses actions similaires

  3. La recherche du continu… • Discrétisation de l’espace d’état • Selon l’action optimale ( B. Scherrer) • Selon la fonction de récompense (R. Coulom, A. Moore, R. Munos) • Utilisation d’actions continues / temps continu • R. Munos, A. Moore • K. Doya, R. Coulom •  Apprentissage par renforcement

  4. Une nouvelle méthode ? • Apprentissage par renforcement • Dynamique inconnue • Récompense inconnue •  Nombreux essais nécessaires •  Convergence Lente • Cadre d’un problème connu • Connaissance a priori du problème •  Pas d’expérimentation nécéssaire •  Représentation minimale

  5. Cadre applicatif • Soit un mobile M ayant • Une position p • Une vitesse v • Des contraintes non linéaires • Vitesse bornée [-1 ; 1] • Position bornée [-1 ; 1] • Une récompense définie par morceaux • -10 si borne enfreinte • +10 si p=0.5

  6. Résolution • Équations différentielles non linéaires • Pas de solution • Une infinité de solutions généralisées • Pas de forme analytique • Approximation par éléments finis • Interpoler la fonction de valeur • Entre des points de référence •  Comment les choisir ?

  7. Notre approcheUne construction incrémentale • À partir de la représentation active • Calcul de la fonction de valeur • Symboliquement • Identification de points critiques • Comparaison à la représentation active • Recherche de l’erreur maximale • Ajout d’un nouvel élément • Actualiser la représentation • Actualiser la valeur de chaque élément • Itérer jusqu’à convergence

  8. Calcul de la fonction de valeur • A partir d’un point donné • Ex. : x=(0.4, v) • Application de la dynamique • F(x, u) = (0.4 + dt*v, v + dt*u) • Application des contraintes • V ≤ 1  u ≤ (1-v) / dt • V ≥ -1  u ≥ (-1-v) / dt • P correcte… •  Liste de successeurs possibles selon u

  9. Calcul de la fonction de valeur (2) • Interpolation de V(f(x, u)) • Choix des points de référence • Détermination des coordonnées barycentriques • Calcul de V • Calcul de V(x) • Maximum selon u •  Valeur optimale avec ces hypothèses

  10. Mise à jour de la représentation • Deux valeurs V(x) sont disponibles : • Le calcul issu de l’équation de HJB • L’interpolation à partir des références • Comparaison des deux valeurs •  Sélection du point d’erreur maximale •  Nouvel élément à définir • Évaluation de V • Pour chaque référence • Par HJB , dans le nouveau référentiel • Jusqu’à stabilité

  11. Poursuite des travaux… • Problèmes mal résolus • Choix des références pour interpoler • Arbre de décision • Sélection des valeurs optimales • Autre piste intéressante • Choix des points critiques selon l’action • Interpoler les actions plutôt que la valeur ? • Comparaison aux méthodes d’A/R • Qualité du résultat ? • Vitesse de convergence ?

More Related