Experimental Study on Context-Dependent Reinforcement Learning of Visuomotor Associations

TP 2: Situationsabhaengiges Verstaerkungslernen FNW/IBIO Jochen Braun, jochen.braun@nat.uni-magdeburg.de Oussama Hamid, oussama.hamid@nat.uni-magdeburg.de Roos Houtkamp, roos.houtkamp@nat.uni-magdeburg.de

Experimenteller Teil: Dokumentiere Verstaerkungslernen visuomotorischer Assoziationen Dokumentiere Situationsabhaengigkeit Korreliere Reizstatistik mit Lernerfolg

Visuelle Objekte • Fraktale Objekte sind • unvertraut • einpraegsam • unterscheidbar

Motorische Assoziationen • Zwei motorische Antworten (links und rechts) • keine Assoziationen mit Objekten • Antwort durch Tastendruck • Verstaerkung durch Farbaenderung (gruen fuer ‘richtig’, rot fuer ‘falsch’)

Erlernen Visuomotorischer Assoziationen Experimenter defines two lists of (arbitrary) target objects: members of first list call for response a (e.g., top, left), members of second list for response B (e.g., bottom, right). Naive subjects attempt to learn these associations by trial and error.

Situationsabhaengikeit A 1st reversal 2nd reversal Zielreize Distraktor- reize ~60 Darbietungen Target and distractor objects reverse roles every 60 trials or so, necessitating relearning of visuomotor associations. Retention of initial visuomotor associations becomes evident after second reversal.

Situationsabhaengigkeit B: Zeitliche Abfolge 0 1 1 1 0 1 1 1 1 0 0 1 1 1 0 1 1 1 0 2 1 0 0 0 1 0 2 0 0 2 1 Uebergaenge gleichverteilt Keine Wiederholungen Bestimmte Uebergaenge gehaeuft Einige Wiederholungen

Unabhaengige Variablen • Haeufung der Uebergaenge • Zahl der Wiederholungen • Abhaengige Variablen • Lerngeschwindigkeit • Geschwindigkeit der Reakti- • vierung nach 2. Umkehr Lernmodell Objektsequenz, -statistik Nimitek

Theoretischer Teil: Model of Yu & Dayan (2005) Erweiterung auf Situationsabhaengigkeit

Uncertainty and Attention Angela Yu, Peter Dayan

The Experiment • 5- Arrows • Trial: target after cue • Subject: report target • Block1: T-1 trials, blue is relevant, prediction probability:  • Block2: from trial T on, blue not relevant any more, for instance red with new 

Mathematical Analysis

The Ideal Learner Algorithm • Zt is the normalizing constant for the distribution • Iterative method for computing the joint posterior • Integration is expensive

Erweiterung von Yu und Dayan 0 1 0 0 0 0.7 0 0 1 1 1 0 2 1 0 0 0 1 0 2 0 0 2 1 Bedeutsamkeit und Zuverlaessigkeit der Einzelobjekte Bedeutsamkeit und Zuverlaessigkeit der Objektuebergange

Experimental Study on Context-Dependent Reinforcement Learning of Visuomotor Associations

Experimental Study on Context-Dependent Reinforcement Learning of Visuomotor Associations

Presentation Transcript