220 likes | 368 Vues
Emergencia strat é gie hry. Peter Lacko Fakulta informatiky a informa čných technológií. Emergencia stratégie hry. vznik stratégie hry bez znalosti experta Neurónové siete Evolučné algoritmy Použitá hra D áma (Zjednodu šená dáma ) Othello (CEC 2006 Othello competition)
E N D
Emergencia stratégie hry Peter Lacko Fakulta informatiky a informačných technológií
Emergencia stratégie hry • vznik stratégie hry bez znalosti experta • Neurónové siete • Evolučné algoritmy • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Go (patter recognition) • Analýza siete
Neurónová sieť • Predspracovanie vstupov • Skryté vrstvy
Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.
Mixture of Experts • Mixture of experts • Hybrid Mixture of Experts • Meta PI • Iná štruktúra • Rôzne topológie expertov • Evolučný princíp
Ciele • Vznik stratégie hry bez znalosti experta experta • Neurónové siete • Mixture of experts • Reinforcement learning • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Analýza siete
Pravidlá zjedodušenej dámy Hra ako vhodný problém pre umelú inteligenciu • hra je štruktúrovaný dobre definovaný problém • ľubovoľný stav hry má presnú reprezentáciu • úspešnosť riešenia sa dá dobre merať Zjednodušená dáma • vyhráva hráč ktorý si vytvorí dámu
Model hry dáma • model hry je pokrytý algoritmom MiniMax do hĺbky 3 3 1 2
Formalizácia hry • diskrétna množina stavov • diskrétna množina akcií • množina ohodnotení
Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.
Učenie s trestom a odmenou • dvojvrstvová dopredná neurónová sieť • sieť si upravuje svoje váhy až po odohraní partiepomocouTD() pravidla • na učenie nepotrebujeme učitela, stačí nám, ak vieme rozhodnúť či sieť vyhrala alebo prehrala
Evolučný prístup • populácia neurónových sietí hrá megaturnaj z ktorého výsledku získajú fitness • fitness ovplyvňuje pravdepodobnosť repredukcie • reprodukcia je spojená s mutáciou (pripočítanie náhodného čísla k váhe neurónovej siete)
Dosiahnuté výsledky Výsledok učenia neurónovej siete s učiteľom (MiniMax) • 64 skrytých neurónv • rýchlosťou učenia 0,01 • koeficientom =0,9 MiniMax hĺbky 1 MiniMax hĺbky 3
Dosiahnuté výsledky Priemerný výsledok adaptácie populácie 20 neurónových sietíučeným metódou trestu a odmenu, testovaných na algoritme MiniMax hĺbky 3 • 64 skrytých neurónov • rýchlosťou učenia 0,01 • koeficientom =0,9
Dosiahnuté výsledky Priemerný výsledok evolučnej adaptácie populácie neurónových sietí testovaných proti algoritmu MiniMax hĺbky 3 Megaturnaj bez MiniMax-u Megaturnaj s MiniMax-om
Analýza siete • sieť sa snaží dostať svoje figúrky na víťazné políčka • figúrky z 2 rady by mali čo najskôr opustiť svoje pozície a ísť do útoky • figúrky z prvého radu by tam mali zostať. • sieť sa bude snažiť zabrániť preniku súpera k jeho víťaznej pozícií. • súperove figúrky stojace na políčkach ktoré znamenajú víťazstvo sa bude sieť snažiť z tejto pozície vylákať
Odozva siete na figúrku Odozva na súperovu figúrku Odozva na hráčovu figúrku
Paralelné spracovanie • megaturnaj 100 agentov je 9900 hier • použité rozhranie zasielania správ MPI • pri našich pokusoch sme používali 12 počítačov (Intel P4 2,6GHz) spojených 100Mbit prepínanou sieťou • zrýchlenie oproti jednému počítaču dosahovalo hodnotu 8,5-10x
Zhodnotenie • neurónová sieť bola schopná naučiť sa hrať hru a vytvoriť si stratégiu ktorou bola schopná poraziť svojho súpera • algoritmus MiniMax od určitej hĺbky generovania stromu neurónovú sieť porážal • rýchlosť generovania odpovede bola pri neurónovej sieti neporovnateľne rýchlejšia a taktiež pamäťové nároky neurónovej siete sú minimálne • nevýhodou neurónovej siete je potreba učenia, ktoré môže byť zdĺhavé • neurónová sieť si dokáže pri hre so slabším protivníkom vytvoriť stratégiu, ktorá je vhodná aj proti silnejším protivníkom.
Neurónová sieť Sekvecia pozícií s ich ohodnotením Kde ohodnotenie je Potom sa snažíme minimalizovať funkciu TD() pravidlo na zmenu váh neurónovej siete