1 / 24

Meger ősítéses tanulás 6. el őadás

Meger ősítéses tanulás 6. el őadás. Szita István, Lőrincz András. Ism étlés: TD becslés. s t -ben  strat égia szerint lépek ! a t , r t , s t + 1 TD becsl és: m ásképpen: mikor tart ez V  -hez?. ism étlés: DP – másképpen. V  Bellman-egyenlete: Iterat ív kiszámolás:

finn
Télécharger la présentation

Meger ősítéses tanulás 6. el őadás

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Megerősítéses tanulás 6. előadás Szita István, Lőrincz András

  2. Ismétlés: TD becslés • st-ben  stratégia szerint lépek • !at,rt,st+1 • TD becslés: • másképpen: • mikor tart ez V -hez?

  3. ismétlés: DP – másképpen • V Bellman-egyenlete: • Iteratív kiszámolás: • TD-szerű kiszámolás: • t=1-re ugyanaz mint fent • általános t-re is működik, csak t = 1 kell.

  4. Összehasonlítás • Monte Carlo: • konvergens, mert független véletlenszámokat átlagolunk (nagy számok törvénye) • dinamikus programozás • konvergens, mert determinisztikus, és kontrakció (DP konvergenciatétel) • TD • olyan, mint a MC, de nincs függetlenség • olyan, mint a DP, de nincs várhatóérték de mintavételezzük!

  5. Iterált átlagolás • xk véletlen változó, átlaga X • mikor lesz zk!X? • szükséges feltételek: • k! 0 • k = 1 • másképpen: • wk “zaj”,

  6. TD becslés átalakítása • ezekkel a jelölésekkel: • nem jó: X helyett Xk van! • de azért majdnem jó: Xk!X • sőt, • Tkontrakció • X a fixpont

  7. Sztochasztikus becslés-tétel • zkN-dimenziós vektor • pl. zk= Vk, N=|S| • pl. zk= Qk , N=|S|¢|A| • H kontraktív operátor,  faktorral, ami zk-kon hat • pl. T, T, megfelelő változataik Q-ra • fixpontja z* • wk zaj • várható értéke 0, ha ismert a múlt. E(wk|Fk) = 0 • Fk: az összes eddigi mintavétel eredménye, pl: (s0, a0, s1, a1, …) • korlátos: |wk|·W 1 valószínűséggel • tanulási ráták: minden s állapotra (s2 [1…N]) külön • k(s) ! 0 • kk(s) = 1 • kk2(s) < 1

  8. Sztochasztikus becslés-tétel • ekkor zk!z* • milyen értelemben? • E(zk) !z* • erősebb értelemben is: 1 valószínűséggel

  9. Sztochasztikus becslés-tétel – bizonyítás • feltehetjük, hogy z* = 0: • csak a legegyszerűbb esetet bizonyítjuk:

  10. Sztochasztikus becslés-tétel – bizonyítás • H kontrakció: • z* = 0: • wk korlátos, minden más is, ezért 9D0, hogy • >0 tetszőlegesen pici, de • indukció i-re: létezik ki, hogy minden k>ki-re • legyen k>ki. ekkor

  11. Sztochasztikus becslés-tétel – bizonyítás • tagonként becsüljük

  12. Sztochasztikus becslés-tétel – bizonyítás • mert • ha k elég nagy, mert • wk korlátos, 0 várható értékű, ezért • ha k elég nagy, mert

  13. Sztochasztikus becslés-tétel – bizonyítás • befejezzük az indukciót • elég nagy k-ra • legyen ki+1 egy ilyen elég nagy k • ha i !1,

  14. Vissza a TD becsléshez • sztochasztikus becslés-tétel szereposztása: • H := T, azaz • miért 0?hogy kijöjjön a fenti képlet • kell: kk(s) = 1mindens-re! Azaz minden s-et végtelen sokszor kell látogatni!

  15. 0 0 10 0 0 5 4 3 END 2 1 TD becslés: példa • fix stratégia kiértékelése •  = 0.9,  = 0.5

  16. TD becslés javítása: „felelősségnyomok” • ha • st, st-1, st-2-ben jártunk, • a t. TD hiba dt, • a t-1., t-2., stb értékét is módosítsuk •  faktorral lecsengetve

  17. TD felelősségnyomokkal • inicializálás: • V(s) = 0 minden s-re • e(s) = 0 minden s-re • t. időpont: • at a  stratégia szerint • st+1megfigyelése • TD hiba: • e(s) = e(s) minden s-re • e(st) = 1 • minden s-re • t := t+1

  18. TD Felelősségnyomokkal • neve: TD() • konvergens • sztochasztikus becslés-tétellel kijön, csak szőrözni kell • könnyen megmutatható, hogy • =0-ra sima TD • =1-re Monte Carlo! • köztes ? valami átmeneti… • legjobb teljesítmény: köztes -kra

  19. TD(): teljesítmények összehasonlítása

More Related