80 likes | 267 Vues
Spring hell in LUI. Quo Vadis Dr. Hudec ;-). Overview . Závery z posledného seminára Aktuálny stav Future & Aqua Vadis ------------------------------------------------. Závery z posledného seminára. Tvorba Simulátora (na 85%) Experimenty pre eisci Tvorba Agenta (inic. Fáza) (na 20%)
E N D
Spring hell in LUI Quo Vadis Dr. Hudec ;-)
Overview • Závery z posledného seminára • Aktuálny stav • Future & Aqua Vadis ------------------------------------------------
Závery z posledného seminára • Tvorba Simulátora(na 85%) • Experimenty pre eisci • Tvorba Agenta (inic. Fáza) (na 20%) • NNlib (implem. stat agent v ramci eisci) • Nnlib, pdp++ , EuSane, nodelib, neureka • GAlib • Fuzzylib (implem. stat agent v ramci eisci) • Výber test bedu (pokrytie plochy,park.,futbal) • Zaujímavé úlohy v NN
Sinčákove body • Stav a rozpracovanie tez dizertačnej práce • Next slide • Stav experimentov - už urobených závery • Príprava experimentov (sim+agent) • Predpokladané bud.exp. - očakávané závery • Todo • Predpokladaný vedecký prínos • Organizačné veci - pre prípravu dizertačky • Predpokladaný kontrolný termín (? :-) )
Tezy • Analýza možností ANN, NFS a EA pri riešení RL úloh -vytvorenie simulátora, implementácia agenta, prehľad o ANN a FS knižniciach • Analýza RL systému typu ACM postavéneho na báze ANN, riešenie nedostatkov vyskytujúcich sa v ACM architektúre a syntéza vytvorených modifikácií • Experimentálna analýza modifikovanej metódy RL učenia zodpovedajúcej sekvenčnému RL problému • Vytvorenie metodiky a integrovaného systému pre testovanie RL agentov a realizácia programového prostredia • Spracovaný prehľad existujúcich RL prostredí
Todo • Implementácia BP(M) a BPTT alebo RTRL, vyhľadať a implementovať CMAC sieť • Začat teoretický rozbor ANN • Výpočtova naročnosť • Určiť obmedzenie BP na veľké siete a normálne Sfunkcie
?vedecký prínos? • Spominaný rozbor • Vplyv zmeny siete aktora v ACM • Nahradenie aktora 2mi častami ako v HDP t.j. Vnutorným modelom sveta a generátorom akcií, ACM sa nemusí trápiť s tvorbou modelu sveta a učením kritika a aktora. • Vplyv nahradenia aktora optimálnym aktorom na priebeh učenia kritika • Vplyv zmeny oneskorenia na činnosť ACM (výkonnosť aj priebeh učenia) • Viackrokové učenie/výber akcií v ACM - mal by zlepšiť priebeh činnosti. Je to previazané s mierou explorácie prostredia
Implementácia času/histórie/kontextu v ACM pomocou rekurentnej siete. (BPTT by malo mať problémy s online učením, možno RTRL) • Teoretické problémy NN • Zabúdanie -- interferencia v NN • Transformacia znalostí medzi sieťami (z cmac do BP) • ? GARIC - EuSane ? Implementácia.