Emergencia strat é gie hry

Emergencia stratégie hry Peter Lacko Fakulta informatiky a informačných technológií

Emergencia stratégie hry • vznik stratégie hry bez znalosti experta • Neurónové siete • Evolučné algoritmy • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Go (patter recognition) • Analýza siete

Neurónová sieť • Predspracovanie vstupov • Skryté vrstvy

Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

Mixture of Experts • Mixture of experts • Hybrid Mixture of Experts • Meta PI • Iná štruktúra • Rôzne topológie expertov • Evolučný princíp

Ciele • Vznik stratégie hry bez znalosti experta experta • Neurónové siete • Mixture of experts • Reinforcement learning • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Analýza siete

Pravidlá zjedodušenej dámy Hra ako vhodný problém pre umelú inteligenciu • hra je štruktúrovaný dobre definovaný problém • ľubovoľný stav hry má presnú reprezentáciu • úspešnosť riešenia sa dá dobre merať Zjednodušená dáma • vyhráva hráč ktorý si vytvorí dámu

Model hry dáma • model hry je pokrytý algoritmom MiniMax do hĺbky 3 3 1 2

Formalizácia hry • diskrétna množina stavov • diskrétna množina akcií • množina ohodnotení

Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

Učenie s trestom a odmenou • dvojvrstvová dopredná neurónová sieť • sieť si upravuje svoje váhy až po odohraní partiepomocouTD() pravidla • na učenie nepotrebujeme učitela, stačí nám, ak vieme rozhodnúť či sieť vyhrala alebo prehrala

Evolučný prístup • populácia neurónových sietí hrá megaturnaj z ktorého výsledku získajú fitness • fitness ovplyvňuje pravdepodobnosť repredukcie • reprodukcia je spojená s mutáciou (pripočítanie náhodného čísla k váhe neurónovej siete)

Dosiahnuté výsledky Výsledok učenia neurónovej siete s učiteľom (MiniMax) • 64 skrytých neurónv • rýchlosťou učenia 0,01 • koeficientom =0,9 MiniMax hĺbky 1 MiniMax hĺbky 3

Dosiahnuté výsledky Priemerný výsledok adaptácie populácie 20 neurónových sietíučeným metódou trestu a odmenu, testovaných na algoritme MiniMax hĺbky 3 • 64 skrytých neurónov • rýchlosťou učenia 0,01 • koeficientom =0,9

Dosiahnuté výsledky Priemerný výsledok evolučnej adaptácie populácie neurónových sietí testovaných proti algoritmu MiniMax hĺbky 3 Megaturnaj bez MiniMax-u Megaturnaj s MiniMax-om

Analýza siete • sieť sa snaží dostať svoje figúrky na víťazné políčka • figúrky z 2 rady by mali čo najskôr opustiť svoje pozície a ísť do útoky • figúrky z prvého radu by tam mali zostať. • sieť sa bude snažiť zabrániť preniku súpera k jeho víťaznej pozícií. • súperove figúrky stojace na políčkach ktoré znamenajú víťazstvo sa bude sieť snažiť z tejto pozície vylákať

Odozva siete na figúrku Odozva na súperovu figúrku Odozva na hráčovu figúrku

Paralelné spracovanie • megaturnaj 100 agentov je 9900 hier • použité rozhranie zasielania správ MPI • pri našich pokusoch sme používali 12 počítačov (Intel P4 2,6GHz) spojených 100Mbit prepínanou sieťou • zrýchlenie oproti jednému počítaču dosahovalo hodnotu 8,5-10x

Zhodnotenie • neurónová sieť bola schopná naučiť sa hrať hru a vytvoriť si stratégiu ktorou bola schopná poraziť svojho súpera • algoritmus MiniMax od určitej hĺbky generovania stromu neurónovú sieť porážal • rýchlosť generovania odpovede bola pri neurónovej sieti neporovnateľne rýchlejšia a taktiež pamäťové nároky neurónovej siete sú minimálne • nevýhodou neurónovej siete je potreba učenia, ktoré môže byť zdĺhavé • neurónová sieť si dokáže pri hre so slabším protivníkom vytvoriť stratégiu, ktorá je vhodná aj proti silnejším protivníkom.

Ďakujem za Vašu pozornosť

Neurónová sieť Sekvecia pozícií s ich ohodnotením Kde ohodnotenie je Potom sa snažíme minimalizovať funkciu TD() pravidlo na zmenu váh neurónovej siete

Emergencia strat é gie hry

Emergencia strat é gie hry

Presentation Transcript

Elaborer les tableaux de bord de la fonction Ressources Humaines

Los Primeros Auxilios.

Primeros Auxilios

Rachunek zysków i strat

NORMAS ANTECEDENTES Y COMPLEMENTARIAS

CONSULTAS OFTALMOLOGICAS FRECUENTES

De la emergencia planetaria a la construcción de un futuro sostenible

PROYECTO DE PREVENCION Y ATENCION DE EMERGENCIA ESCOLAR PLAN DE EVACUACION Y SEGURIDAD ESCOLAR

Mitocondrias y Cloroplastos

COMA

FORMACION DE BRIGADAS INTERNAS DE PROTECCION CIVIL UAT.

NOCIONES BÁSICAS SOBRE LA GENERACIÓN DE UN NUEVO

Manual de Unidades de Protección Civil y Emergencia Escolar

Algoritmo de Soporte Vital Cardiaco Avanzado

AMBULANCIA MODERNA

ALARMA Y DESPACHO Academia Bomberos Voluntarios Ushuaia bomberosushuaia.ar

Sistema integrado de emergência médica

URGENCIAS Y EMERGENCIAS REUMATOLOGICAS

CEREALES DE INVIERNO Fisiología y Producción

PLAN DE COMUNICACIÓN

NUTRICIÓN EN EL PACIENTE QUIRÚRGICO

Primeros auxilios