1 / 54

Inleiding adaptieve systemen

Inleiding adaptieve systemen. Competitie en co öperatie. Inhoud. Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen Prisoner’s Dilemma ( PD ) Stag Hunt ( SH ) Chicken ( CK )

jamese
Télécharger la présentation

Inleiding adaptieve systemen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Inleiding adaptieve systemen Competitie en coöperatie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  2. Inhoud • Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen • Prisoner’s Dilemma ( PD ) • Stag Hunt ( SH ) • Chicken ( CK ) • Begrippen: Pareto-optimale oplossing, Nash-evenwicht • Uitbreidingen van het Prisoner’s Dilemma • Geïtereerd ( IPD ) • Geïtereerd evolutionair ( IEPD ) • Geïtereerd ruimtelijk evolutionair ( SIEPD ) • Geïtereerd continu ruimtelijk evolutionair ( CSIEPD ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  3. Coöperatieve spelen Doel: coördinatie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  4. Doel: eigen winst-maximalisatie Competitieve spelen Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  5. Competitieve spelen • Wie doet de vaat? • Gedeelde koffiepot • Meeliften in groepswerk • Wielrenners in een kopgroep • NIMBY problematiek (windmolenpark) • Vangstquotum in de visserij • Handelsoorlog • Wapenwedloop Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  6. Pot koffie zetten (naar apparaat lopen, alle handelingen doen etc.): kosten C = 2 Pot koffie drinken: baten B = 3 Koffie zetten en drinken: nut is B – C = 1 Koffiezet dilemma (C, B) →PD. Voor andere waarden van C en B krijgen we een ander spel. (Doen we nu niet.) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  7. Prisoner’s dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  8. Jij bent speler Speler 1. Je speelt één keer, zonder vooraf te (kunnen of willen) communiceren met Speler 2. Wat zou je doen als je wist dat Speler 2 samenwerkt (C)? Wat zou je doen als je wist dat Speler 2 verzaakt (D)? Dus wat zou je i.h.a. doen? Wat zou Speler 2 i.h.a. doen? Zou het uitmaken als Speler 1 en Speler 2 van te voren mochten communiceren? Een abstractie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  9. Pareto front Sommeren van nut is geen optie. (Som van Euro’s en Dollars = ??) • Een paar αA (αB) heet een gemeenschappelijke strategie • Afgekort met JS (“joint strategy”) • α van “actie” • Een JSdomineert een andere JS als • Tenminste één speler daar strict beter van wordt. • Geen enkele andere speler daar slechter van wordt. • Een JS welke niet gedomineerd wordt door een andere JS, heet Pareto-optimaal • Pareto-front = { PO opl. } Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  10. Je speelt beiden C(C) (links-boven). Heb je reden om van strategie C af te wijken? Heeft B reden om af te wijken? Jij speelt C, maar B speelt D (rechts-boven). Weer dezelfde vragen voor spelers A en B Dezelfde vragen voor JS (C, D) (links-onder). Tenslotte voor JS (D, D) Nash evenwicht Probleem: het Nash-evenwicht is NIET Pareto-optimaal • We zeggen dat een JS zich in een Nash-evenwicht bevindt als geen partij er baat bij heeft zijn strategie (eenzijdig) te veranderen. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  11. Normaalvorm(= generieke 2x2 matrix) CC: we werken samen (Reward payoff, R) DC: ik verzaak, de ander is een sukkel (Temptation payoff, T) CD: ik ben coöperatief de ander verzaakt (Sucker payoff, S) DD: we verzaken beiden (Penalty payoff, P) Je krijgt verschillende spelen als je gaat variëren met P, R, S, T Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  12. Tragedy of the commons Meerdere deelnemers + indirecte interactie, bv. middels gedeelde reserves. Voorbeeld: overbevissing • Als iedereen zich aan het visquotum houdt is er niks aan de hand ( R ) • Verleiding ( T ): jij houd je er, als één van de weinigen, niet aan • Sukkel ( S ): jij houd je er, als één van de weinigen, wel aan • Penalty ( P ): iedereen heeft lak aan het quotum → zee leeg • Column van Lebbis in Spijkers met Koppen 30 mei 2009, op ong. 00:45 min. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  13. DC: ik ga praten (verklikken) ten koste van mijn partner CC: we houden beiden onze mond DD: we gaan allebei praten CD: ik houd m’n mond, maar wordt verklikt door mijn partner Prisoner’s dilemma T > R > P > S Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  14. Chicken game

  15. Chicken: T > R > S > P Ook wel: “sway or dare” DC: ik rij rechtdoor, de ander niet CC: we wijken beiden uit CD: ik wijk uit, de ander rijdt rechtdoor DD: we rijden beiden rechtdoor Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  16. DC: ik blijf zitten, de ander ruimt sneeuw CC: we ruimen beiden sneeuw CD: ik ruim sneeuw, de ander niet DD: we ruimen beiden geen sneeuw (en vriezen dood) Snowdrift: T > R > S > P Ook hier geldt weer: T > R > S > P. Dus identiek aan Game of Chicken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  17. DC: de ander haalt groen terug en terwijl hij dat doet, ga ik in z’n wiel zitten CC: we halen hem samen terug CD: ik haal hem terug, met die ander in m’n wiel (en verminder zo m’n winstkansen) DD: niemand haalt iemand terug (en we verliezen allebei de wedstrijd) Ontsnapte wielrenner terughalen Je con-current Jij Ook hier geldt weer: T > R > S > P. Dus identiek aan Game of Chicken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  18. CC: we jagen samen op een hert DC: ik jaag op een haas (jij vruchteloos op een hert) DD: we jagen beiden op een haas CD: jij jaagt op een haas (ik vruchteloos op een hert) Hert of haas: R > T > P > S Hier geldt NIET: T > R > S > P. Dus NIET identiek aan Game of Chicken Claude Monet. De Jacht (1876) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  19. CC: we komen allemaal DC: ik zeg af, de anderen komen DD: we zeggen allemaal af CD: ik kom, de anderen zeggen af Samen uit, samen thuis Hier geldt weer: R > T > P > S. Dus: Stag Hunt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  20. Man: DC: we gaan samen naar voetbal CD: we gaan samen naar ballet DD: ik ga naar voetbal, jij gaat naar ballet CC: ik ga naar ballet, jij gaat naar voetbal Battle of the sexes T > S > P > R Weer andere ordening dan Prisoner’s, Chicken en Stag Hunt. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  21. R S T P Postulaten voor coöperatie Een meewerkende partner levert meer op dan een partner die verzaakt: • CC > CD ( R > S ): als ik meewerk, is het beter dat mijn partner dat ook doet • DC > DD ( T > P ): als ik verzaak, kan ik profiteren van een meewerkende sukkel Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  22. Mogelijke postulaten voor verzaken Verzaken levert winst op: • DC > CC ( T > R ): als mijn partner meewerkt, is het beter voor mij te profiteren. • DD > CD ( P > S ): als mijn partner verzaakt, kan ik zelf ook beter verzaken R S T P Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  23. Ordening van strategieën DC 2 3 DD CC 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  24. Chicken: DC > CC > CD > DD DC 2 3 DD CC ! 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  25. Hert of haas: CC > DC > DD > CD DC ! 2 3 DD CC 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  26. Prisoner’s: DC > CC > DD > CD DC 2 3 DD CC 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  27. Generieke 2x2 strategie-matrix Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  28. Overzicht van 2x2 competitief Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  29. Competitie en coöperatie Gemixte strategieën Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  30. Stel, A weet dat B met kans q actie C speelt, i.e., PrB(C) = q Wanneer wordt het voor A interessant om samen te werken? Antwoord: als en slechts als: PayoffA( C | PrB(C) = q ) > PayoffA( D | PrB(C) = q ) Als en slechts als: qR + (1 – q)S > qT + (1 – q)P Als en slechts als: q > (P – S)/(R – T + P – S), als R – T + P – S > 0 q < (P – S)/(R – T + P – S), als R – T + P – S < 0 S > P, anders PrB(C) is bekend { Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  31. Gemixte strategie • Stel, spelerA besluit C met kans p te spelen. We zeggen dan dat A volgens een gemixte strategie met parameterp speelt. Kortweg: de strategie van A is p. • Evenzo noteren we een gemixte strategie van B als q. • Vraagstuk: voor welke paren van kansen vormt (p, q) een Nash-evenwicht? p 1 – p q 1 – q Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  32. Nash-evenwicht bij gemixte strategie • Neem aan dat 0 < R – T + P – S < 1 • In dat geval zagen we dat A • Beter kan samenwerken a.e.s.a. q > (P – S)/(R – T + P – S) • Beter kan verzaken a.e.s.a. q < (P – S)/(R – T + P – S) • In alle andere gevallen is de waarde van p voor A irrelevant. • Hetzelfde geldt voor B, maar dan symmetrisch q p Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  33. Stag hunt (samen uit, samen thuis) 4 ( 4 ) Drie NE, waarvan één labiel 3 ( 1 ) 1 ( 3 ) 2 ( 2 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  34. Prisoner’s dilemma Eén NE 3 (3) 0 ( 5 ) De Ander 1 (1) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  35. Chicken (Snowdrift game) Drie NE 0 ( 0 ) -1 ( 1 ) 1 ( -1 ) -5 ( -5 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  36. Battle of the sexes Eén NE 3 ( 2 ) 1 ( 1 ) 2 ( 3 ) De Ander 0 ( 0 ) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  37. Variaties ophet Prisoner’s Dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  38. Variaties • Het herhaalde Prisoner’s Dilemma (Eng.: Iterated PD, IPD) • Een evolutionaire variant van het IPD (EIPD) • Een ruimtelijk-evolutionaire variant van het IPD (SEIPD) • Een continu-ruimtelijk-evolutionaire variant van het IPD (CSEIPD) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  39. Iterated Prisoner’s Dilemma (IPD) Enkele strategieën: • Altijd samenwerken (ALL-C) • Altijd verzaken (ALL-D) • Maar wat doen (RAND) • Oog om oog, tand om tand (Engels: tit-for-tat, TFT) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  40. Voorbeeld van2 Episoden van elk 10 Ronden Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  41. Opbrengst van rij t.o.v. kolom Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  42. D D C C D C C D D C C C C C C D –5 –5 C D D C C C C D D D C D 0 0 0 0 0 0 0 0 5 0 5 0 Met TFT nooit echt veelslechter af dan tegenstander • Speler 2 kan één keer verzaken, maar moet bij wisseling van strategie altijd zijn winst weer inleveren. 2 1 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  43. Succes: Kan onmogelijk uitgebuit worden Presteert nooit slechter dan tegenstander Zwakte: Kort geheugen: blijft bij D hangen in D, tenzij tegenstander C doet Presteert nooit beter dan tegenstander Succes en zwakte van TFT Tit Tat Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  44. Andere strategieën • UNFORGIVING: als tegenstander verzaakt, dan nooit meer meewerken • TF2T: tit-for-two-tats: TFT, maar pas vergelden na twee opeenvolgende defects van tegenstander. • PAVLOV: start met C. Wissel strategie als sucker of punishment. Werkt beter onder noise dan TFT. Meer: ziemijn master seminar over adaptive agents, onderdeel “repeated games” Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  45. Flake: ecological world Initialisatie: • Stel K strategieën vast, bv. { ALL-C, ALL-D, RAND, TFT, UNFORGIVING, PAVLOV }. (Hier K = 6.) • Stel aantal ronden N vast. (Zeg, N = 200.) • Reward i tegen j = Ri,j = gemiddelde opbrengst voor i tegen j over N ronden. • Geef iedere strategie i een initieel aandeel Pi z.d.d. som der gewichten = 1.0. Herhaal voor E episoden: • Score i = gemiddelde opbrengst voor strategie i. • Pas Piaan op basis van de gewogen score. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  46. Update-formulevoor strategie-aandeel De score van Strategieiop tijdstipt is gelijk aan de gemiddelde interactie-opbrengst van i, gewogen naar de populatieomvang van soorten: Het aandeel van Strategieiop een volgend tijdstipt+1 is gelijk aan Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  47. Flake: ecological world (ideal) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  48. Flake: ecological world (noise-free) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  49. Flake: ecological world (noise) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

  50. Initiële populatie: 60% coöperatief, rest verzaakt. Strategie per cel: Concurreer met acht buren. Adapteer strategie van meest succesvolle buur. Kleuren: Blauw: blijft C Rood: blijft D Geel: D → C Groen: C → D N.B. Het ruimtelijk IPD zoals te vinden in Netlogo ≠ het ruimtelijk IPD zoals dat beschreven is in het boek van Flake Interessante parameter: beloning om samen te werken α Spatial iterated PD (SIPD) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

More Related