1 / 22

Emergencia strat é gie hry

Emergencia strat é gie hry. Peter Lacko Fakulta informatiky a informa čných technológií. Emergencia stratégie hry. vznik stratégie hry bez znalosti experta Neurónové siete Evolučné algoritmy Použitá hra D áma (Zjednodu šená dáma ) Othello (CEC 2006 Othello competition)

abedi
Télécharger la présentation

Emergencia strat é gie hry

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Emergencia stratégie hry Peter Lacko Fakulta informatiky a informačných technológií

  2. Emergencia stratégie hry • vznik stratégie hry bez znalosti experta • Neurónové siete • Evolučné algoritmy • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Go (patter recognition) • Analýza siete

  3. Neurónová sieť • Predspracovanie vstupov • Skryté vrstvy

  4. Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

  5. Mixture of Experts • Mixture of experts • Hybrid Mixture of Experts • Meta PI • Iná štruktúra • Rôzne topológie expertov • Evolučný princíp

  6. Ciele • Vznik stratégie hry bez znalosti experta experta • Neurónové siete • Mixture of experts • Reinforcement learning • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Analýza siete

  7. Pravidlá zjedodušenej dámy Hra ako vhodný problém pre umelú inteligenciu • hra je štruktúrovaný dobre definovaný problém • ľubovoľný stav hry má presnú reprezentáciu • úspešnosť riešenia sa dá dobre merať Zjednodušená dáma • vyhráva hráč ktorý si vytvorí dámu

  8. Model hry dáma • model hry je pokrytý algoritmom MiniMax do hĺbky 3 3 1 2

  9. Formalizácia hry • diskrétna množina stavov • diskrétna množina akcií • množina ohodnotení

  10. Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

  11. Učenie s trestom a odmenou • dvojvrstvová dopredná neurónová sieť • sieť si upravuje svoje váhy až po odohraní partiepomocouTD() pravidla • na učenie nepotrebujeme učitela, stačí nám, ak vieme rozhodnúť či sieť vyhrala alebo prehrala

  12. Evolučný prístup • populácia neurónových sietí hrá megaturnaj z ktorého výsledku získajú fitness • fitness ovplyvňuje pravdepodobnosť repredukcie • reprodukcia je spojená s mutáciou (pripočítanie náhodného čísla k váhe neurónovej siete)

  13. Dosiahnuté výsledky Výsledok učenia neurónovej siete s učiteľom (MiniMax) • 64 skrytých neurónv • rýchlosťou učenia 0,01 • koeficientom =0,9 MiniMax hĺbky 1 MiniMax hĺbky 3

  14. Dosiahnuté výsledky Priemerný výsledok adaptácie populácie 20 neurónových sietíučeným metódou trestu a odmenu, testovaných na algoritme MiniMax hĺbky 3 • 64 skrytých neurónov • rýchlosťou učenia 0,01 • koeficientom =0,9

  15. Dosiahnuté výsledky Priemerný výsledok evolučnej adaptácie populácie neurónových sietí testovaných proti algoritmu MiniMax hĺbky 3 Megaturnaj bez MiniMax-u Megaturnaj s MiniMax-om

  16. Analýza siete • sieť sa snaží dostať svoje figúrky na víťazné políčka • figúrky z 2 rady by mali čo najskôr opustiť svoje pozície a ísť do útoky • figúrky z prvého radu by tam mali zostať. • sieť sa bude snažiť zabrániť preniku súpera k jeho víťaznej pozícií. • súperove figúrky stojace na políčkach ktoré znamenajú víťazstvo sa bude sieť snažiť z tejto pozície vylákať

  17. Odozva siete na figúrku Odozva na súperovu figúrku Odozva na hráčovu figúrku

  18. Paralelné spracovanie • megaturnaj 100 agentov je 9900 hier • použité rozhranie zasielania správ MPI • pri našich pokusoch sme používali 12 počítačov (Intel P4 2,6GHz) spojených 100Mbit prepínanou sieťou • zrýchlenie oproti jednému počítaču dosahovalo hodnotu 8,5-10x

  19. Zhodnotenie • neurónová sieť bola schopná naučiť sa hrať hru a vytvoriť si stratégiu ktorou bola schopná poraziť svojho súpera • algoritmus MiniMax od určitej hĺbky generovania stromu neurónovú sieť porážal • rýchlosť generovania odpovede bola pri neurónovej sieti neporovnateľne rýchlejšia a taktiež pamäťové nároky neurónovej siete sú minimálne • nevýhodou neurónovej siete je potreba učenia, ktoré môže byť zdĺhavé • neurónová sieť si dokáže pri hre so slabším protivníkom vytvoriť stratégiu, ktorá je vhodná aj proti silnejším protivníkom.

  20. Ďakujem za Vašu pozornosť

  21. Neurónová sieť Sekvecia pozícií s ich ohodnotením Kde ohodnotenie je Potom sa snažíme minimalizovať funkciu TD() pravidlo na zmenu váh neurónovej siete

More Related