Meger ősítéses tanulás 2. el őadás

Megerősítéses tanulás2. előadás Szita István, Lőrincz András

Technikai dolgok • Emailszityu@eotvoscollegium.hu • Annai levlistahttp://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ • Olvasnivaló:Sutton, Barto: Reinforcement Learning: An Introductionhttp://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html • Jegyzet • Vizsga

Mi a megerősítéses tanulás? • mesterséges intelligenciakutatás egyik ága • interakcióból tanul • előzetes információ nélkül • próba-szerencse alapon • célorientált • maximális jutalom hosszú távra

Példák • játékok: blackjack, sakk, dáma, tictactoe • egyensúlyozás • újszülött őzike • mindenféle robotok • sétáló • navigáló • helikoptervezérlő • robotfoci

az RL nehéz… • a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés • tanár helyett kritikus • próba-szerencse módszerrel kell megtalálni a helyes megoldást • időnként új cselekvéseket is ki kell próbálni • az így megszerzett tudást optimálisan felhasználni • dilemma: a járt út vagy a járatlan?

az RL nehéz… • a helyes döntésért járó jutalom késhet • rövidtávú nyereség $hosszútávú nyereség • miért járt a jutalom? • bizonytalan környezet … de kezelhető

A félév tervezett menete • az RL feladat megfogalmazása • matematikai modell • egyszerű megoldási módszerek • a legegyszerűbbektől indulunk… • elemzés (hatékonyság, konvergencia) • korlátok

A félév tervezett menete • néhány fejlettebb módszer • általánosítás • neuronhálózatok • policy gradient • alkalmazások • backgammon • helikopterirányítás • ember-számítógép kölcsönhatás • nyitott kérdések

Jöjjenek a részletek!

Az RL feladat környezet akció állapot jutalom ügynök stratégia, modell

Az RL feladat részei • környezet: fekete doboz • tanulóügynök • állapot: az ügynök megfigyelése a környezetről • jutalom: egyetlen szám (!!!) • stratégia: állapot ! akció leképezés • akció: ez hat a környezetre • kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja

Feltevések • szükség van rájuk, hogy meg lehessen támadni a feladatot • mindegyik gyengíthető – de nehezíti a feladatot • némelyikre még visszatérünk…

Feltevések • a jutalom egyetlen számmal leírható • az idő diszkrét (t = 1, 2, 3, …) • az állapottér is diszkrét és véges • az állapot teljesen megfigyelhető • és még egy (Markov tulajdonság), de erről később • nem túl erősek a megkötések?

Formalizáljuk a feladatot • idő: • állapot: • akció: • jutalom: • stratégia: • determinisztikus: • szochasztikus: • (s,a) annak a valószínűsége, hogy s-ben a-t lép

Formalizáljuk a feladatot • interakció: • környezet modellje: átmeneti valószínűségek és jutalmak • cél: maximális várható jutalom:

A Markov-feltevés • feltesszük, hogy a régmúlt nem számít: • a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:

Mi van a végén? • epizodikus, fix idejű feladat • epizodikus, nem fix idejű feladat • folytonos feladat • gond: rt végtelen lehet! • megoldás: diszkontálás. rthelyett trt , <1 • garantáltan véges • diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!

Az RL feladat kezelhető modellje:a Markov döntési folyamat (MDP) • S: állapottér • A: akciótér • átmeneti valószínűségek • közvetlen jutalmak • s0: kiindulási állapot • : diszkontálási ráta

Markov döntési folyamat megoldása • környezet lépked P és R szerint: • ügynök lépked  szerint: • optimális stratégia: olyan , amelyremaximális.

Példák • bot egyensúlyozása • autó a völgyben • tic-tac-toe • dáma, backgammon • póker

Optimális stratégia keresése • két fő megközelítési mód • direkt stratégiakeresési módszerek • egyszerűbbnek tűnik, de nem az • lokális minimum • félév végén lesz róla szó • értékelőfüggvény-alapú módszerek • történetileg korábbi • egyszerűbb • globális maximum!

Az értékelőfüggvény • s állapot értéke: a várható összjutalom s-ből indulva

A Bellman-egyenlet

A Bellman-egyenlet • fixpontegyenlet • egyértelmű megoldás, mindig létezik

Akcióértékelő függvény • várható összjutalom s, a után • Bellman-egyenlet:

Meger ősítéses tanulás 2. el őadás