Meger ősítéses Tanulás = Reinforcement Learning (RL)

Megerősítéses Tanulás=Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI szcsaba@sztaki.hu www.sztaki.hu/~szcsaba

Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004- • Tanulás • Megerősítéses tanulás • Klasszifikáció • Jellegzetesség kivonás • Alkalmazási területek • Kontroll, játékok • Beszéd • Természetes nyelv (NKFP projekt: NYELVBÁNYÁSZ) • Pénzügyi mat. (portfólió opt.) • Kocsis Levente, PhD • Szepesvári Csaba, PhD • Szamonek Zoltán, PhD hallg. • „your name”?

MA: Megerősítéses Tanulás Tartalom: Motiváció Algoritmusok, módszerek, eszközök Alkalmazások

AI - „a nagy kép” • Intelligencia: • Tanulás • „Programozói” lustaság + • a feladatok komplexitásának kezelése: • Minél önállóbb tanulás

Póker • Célok: • mesterszintű játék • játék aspektusok • ellenfél modellezés • Autóverseny-szimulátor • Célok: • Emberi teljesítmény mesteri reprodukciója • Autóvezetés forgalomban Hol tartunk? (MLHCI Csoport)

+3 +50 -1 -1 r1 r9 r4 r5 Mi a megerősítéses tanulás (RL) ? • Nagyfokú önállóság a tanulásban • Információk: • büntetés/jutalom alapján • megfigyelések a környezetről (állapotok) • Cél: a jutalom egy függvényét maximalizálni! … … s1 s2 s3 s4 s5 s9 … a1 a2 a3 a4 a5 a9 …

A k-karú bandita probléma Átlagos kifizetés (jutalom) Akciók 10 0, 0, 5, 10, 35 5, 10, -15, -15, -10 -5 Ágens 100 0

Markov Döntési Folyamatok ~ Markov Decision Processes (MDPs) • Állapotok, véletlentől függő átmenetekkel • Átmenetvalószínűségek aktuális állapottól függnek • Transition matrix P, and reward function R a1 r = 2 1 1 2 r = 0 a2

+3 +50 -1 -1 r1 r9 r4 r5 Hosszútávú jutalom • Ágens politikája rögzített:p • Az Rtkifizetés a t pillanat utáni össz-jutalom

Érték = Hasznosság = Várható kifizetés • Rtvalószínűségi változó • Vehetjük a várható értékét! Politikától függ Rt ! • Feladat: találjuk meg azt ap*politikát amelyik a várható értéket maximalizálja, minden állapotban

at at+1 at+2 st st+1 st+2 st+3 Az eddigi sztori.. • RL feladatok részei: • Több lépéses döntési feladatok • Célp*-ot megtalálni • Kritérium: Rövid távúHosszú távú rt+1 rt+2 rt+3

4 3 5 p(s) s A Bellman egyenletek • A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető: ahol és Másképp: V = TVvagyBV = 0

Bellman egyenletek - optimális értékelő függvény • Optimális értékelő függvény • Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a) • Ez optimális!!! • Politika javítás algoritmus: (kiértékel, javít)*

4 3 5 p(s) s st st+1 at = p(st) rt+1 „Bootstrapping” módszerek • Pés R ismeretét feltételezve; Dinamikus Programozás • Nem ismerjükP-t és R-et, mintavételezés; „Temporal Difference learning”

st st+1 at rt+1 TD(0) tanulás: Politikák kiértékelése t:=0 p is the policy to be evaluated Initialise arbitrarily for all Repeat select an action atfrom p(st) observe the transition update according to t:=t+1

at rt+1 at st+1 st st st+1 rt+1 „On-”és„Off-” politika tanulás • „On politika”: az éppen követett politikát értékeljük pl. TD tanulással • „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk • Pl. Q-tanulás:

„Off-politika” tanulás • A Q-tanulás előnyei • Az optimális politika p* értékét becsli • miközben tetszőleges (felfedező) akciókat lehet végrehatjani • e-mohó felfedezés: • Mohó akció e valószínűséggel • Véletlen akció 1-e valószínűséggel • Garantált konvergencia, ha kellően bejárjuk az MDP-t • Meg lehet-e találnip* -ot „on-politika” algoritmussal?

st+1 at at+1 st rt+1 „On politika” tanulás: Sarsa • Töröljük a „max” operátort! • Értékeljük a követett politikát: • Fokozatosan, lassan változtassuk a politikát • Konvergál! (Jaakkola,Singh,Littman,Szepesvári)

st+1 at st rt+1 „On politika”tanulás: Sarsa t:=0 Initialise arbitrarily for all select an action atfrom explore( ) Repeat observe the transition select an action at+1from explore( ) update according to t:=t+1

st+1 st+1 at st+1 st st rt+1 at at+1 st rt+1 Összefoglalás: TD, Q-learning, Sarsa • TD learning • One step Q-learning • Sarsa learning at rt+1

at-2 at-1 at st-2 st-1 st st+1 rt-1 rt rt+1 2-es fokozat: „Eligibility traces”, TD(l) • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk: • Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”: • ahol • Módosítsuk mindenállapotértékét az „alkalmazhatósági mértékkel” arányosan:

at-1 at st-1 st at+1 rt rt+1 agreedy st+1 „Eligibility trace”a Q-tanulásban: Q(l) • Sokféleképpen lehet csinálni • Pl. minden s,apárra: • Nem-mohó akciónál is van információ visszaterjesztés • Elvész a konvergencia garancia! • Watkin’s megoldási javaslata: nem-mohó után e:=0 • Probléma: hatásfokot csökkenti • “Bias variance” dilemma

at at+1 at+2 rt+1 rt+2 st st+1 st+2 Sarsa(l) • Másik megoldás: használjuk a Sarsa algoritmust! • Minden s,apárra: • Konvergencia tulajdonság megmarad(?)

„Közelítő”RL • Miért? • Idő és tárkorlátok! (Bellman: dimenzionalítás átka) • Általánosítás új szituációkra (elégtelen mintavételezés) • Megoldások • Érték-függvény közelítése • Politika térbeli keresés • Közelítő modellek + tervezés

Lineáris approximáció • Egyszerűés hasznos! • Vannak konvergencia eredmények • Most: lineáris TD(l) Súlyvektora t. időpillanatban: „Feature” vektor azsállapotra: Becslés Cél: minimalizálni..

Értékfüggvény közelítés: approximátorok • Választások: pl. CMAC, RBF népszerűek • CMAC: n db. cserépdarab • „Features” • Tulajdonságok • „Coarse coding” • Szabályos fedés_jó hatásfok • Véletlen hash: memóriaigénycsökkenti

Lineáris közelítések • Gradiens módszer -re • TD(l)egyenlet új alakja: • Most az E.T. n-dimenziós vektor, amit így módosítunk: • Konvergál -hoz

Újabb önreklám • William D. Smart, Cs. Szepesvári, ICML’2004: • Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva. • Nem gradiens módszer. • A megfelelő gradiens módszer konvergenciája nem ismert. • Sejtés: .... Konvergens?

Egy különösen sikeres példa:TD-gammon • TD(l) tanulás, 1 rejtett rétegű neuronháló, Backprop • 1,500,000 játék (saját magával) • A legjobb játékosokkal azonos képességek (világbajnok) • Backgammon állapottere: ~1020 , DP nem megy!!

Modell alapú RL: struktúrált modellek • Dinamikus Bayes háló aPállapotátmenetek reprezentációjára (másképp: faktorizált MDP) • V: fa • Backup: „goal regression” • Hasonlít a tervezési feladatokra

ot ot+2 ot+1 at at+1 at+2 st st+1 st+2 rt+1 rt+2 RL: rejtett állapotok • POMDP, k-Markov • POMDP-ben a tervezés nem(sem) kivihető (intractable) • Faktorizált POMDP-k: igéretes • Politika keresés előnyös

Politika keresés (direkt módszer) • Módszerek • Gradiens • Evolúciós (egyéb local/global search)

Alkalmazások

Sridhar Mahadevan UMass Robot navigációs feladat • Pavlov: Nomad 200 robot • Nomad 200 simulator

Sridhar Mahadevan UMass Hierarchikus modellek – térbeli modellezésre Entire environment 575 states Corridor state 1385 states Production state

Hierarchikus modellek vertical transitions entry states exit states abstract states horizontal transitions product states, which generate observations

Ingress router egress router ingress router egress router (Yong Liu, Singapore) Internet forgalom-szabályozás“Multi-protocol label switching” Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolás valószínűségét minimalizáljuk

Jeremy Wyatt Yoshiyuki Matsumura Matthew Todd University of Birmingham School of Computer Science Robot foci: szimulációs liga

A k-lábú robot

Look in the mirror Look at the road Check the speed Head & eyes Steer the wheel Put on high gear Steer the wheel Right arm Press brakes Accelerate Press brakes Legs Decision epochs Egyidejű (konkurrens) akciók Example: driving

M.L.Puterman, 2002 Alkalmazások (A-tól N-ig) • Airline Meal Planning • Behaviourial Ecology • Capacity Expansion • Decision Analysis • Equipment Replacement • Fisheries Management • Gambling Systems • Highway Pavement Repair • Inventory Control • Job Seeking Strategies • Knapsack Problems • Learning • Medical Treatment • Network Control

M.L.Puterman, 2002 Alkalmazások (O-tól Z-ig) • Option Pricing • Project Selection • Queueing System Control • Robotic Motion • Scheduling • Tetris • User Modeling • Vision (Computer) • Water Resources • X-Ray Dosage • Yield Management • Zebra Hunting

Néhány további RLalkalmazás • Liftek vezérlése (Barto & Crites) • Ütemezési feladatok, űrsikló pakolása (Zhang & Dietterich) • Dinamikus csatorna kiosztás mobil hálózatokban (Singh & Bertsekas) • Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni tanulás, zsonglőrködés • Ragadozó-préda (PacMan) • Portfólió optimalizálás

Aktív területek • Optimális felfedező stratégiák • Struktúrált modellek • Relációs modellek • Folytonos állapot és akció-terek • Hierarchikus RL • Állapotok és akciók absztrakciói (options, macros,..) • Rejtett állapotok (eg. POMDPs) • Prediktív állapot-reprezentáció • Politika keresés • Szignifikancia tesztek

Reinforcement Learning: key papers Overviews R. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press, 1998. J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity and Learning. Springer Verlag, 2003. L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 4:237-285, 1996. Value Function Approximation D. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998. Eligibility Traces S.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces. Machine Learning, 22:123-158, 1996.

Reinforcement Learning: key papers Structured Models and Planning C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999. R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000. B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001. K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

Reinforcement Learning: key papers Policy Search R. Williams. Simple statistical gradient algorithms for connectionist reinforcement learning. Machine Learning, 8:229-256. R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for Reinforcement Learning with Function Approximation. NIPS 12, 2000. Hierarchical Reinforcement Learning R. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211. R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998. A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

Reinforcement Learning: key papers Exploration N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999. J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001. POMDPs L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.

Meger ősítéses Tanulás = Reinforcement Learning (RL)