התניה אופרנטית – חלק א'

התניה אופרנטית – חלק א' מבוא ללמידה והתנהגות: התניה ומח שעור 4

נושאים • חובות מפעם קודמת: • כמה מלים על חוק בייס ו-Kalman filter • התניה קלאסית ובני אדם: טיפול בפוביות • Thorndike וה- Law of Effect • סוגי פרוצדורות בצעדים בדידים • Skinner ולוחות חיזוק • מודל Actor Critic – קשר ל-TD, מימוש ברשת נוירונים • מימוש במח – תאוריה, ומעשה (fMRI – O’Doherty+Dayan, Wightman+Phillips - FSCV)

אי ודאות והתניה קלאסית • לכל ערך של גירוי מוצמד גם מידת בטחון (uncertainty) בערך. הבטחון יורד ככל שעובר זמן מאז שהגירוי הוצג לאחרונה. • מבחינת שילוב אופטימלי של מידע חדש עם ישן, ככל שהבטחון נמוך יותר, נרצה להגביר את קצב הלמידה • איך זה קשור לחוק בייס ולהסקה סטטיסטית אופטימלית?

חוק Bayes – הסקה סטטיסטית • המטרה: לייצג אמונות על העולם • אקסיומות Cox: אם מייצגים אמונות ע"י מספרים ממשיים, הדרך היחידה לתפעל אותם, שהיא סבירה וקונסיסטנטית, היא ע"י חוק Bayes. • דרך אופטימלית (מבחינה סטטיסטית) לשלב בין הנחות קודמות למידע חדש • המון מחקר כיום מראה כי אנשים ובע"ח משתמשים בהסקה בייסאנית (מע' מוטורית, ויזואלית וכו'). עוד בסוף הקורס.

Kalman filter – הסקה סטטיסטית ותחרות • במודל סטטיסטי מסויים של העולם (הילוך מקרי עם רעש גאוסיאני של הערכים, רעש גאוסיאני בתצפיות), ההסקה הסטטיסטית האופטימלית (מהנצפה אל הערכים האמיתיים, לפי חוק Bayes) היא עפ"י Kalman filter: • כמודל של למידה קלאסית מגלם: קצב למידה תלוי בבטחון היחסי; תחרות בין גירויים (לא כתוצאה ממחסור במשאבים!)

שימושי התניה קלאסית בבני אדם: טיפול בפוביות • רוב התגובות האמוציונליות שלנו נלמדות, דרך התניה קלאסית • Watson+Rayner (1920) – בדקו תגובות של תינוקות לגירויים שחשבו שהם מפחידים מלידה (אש, חולדות, כלבים) – אף אחד מהם לא היה מפחיד. צליל חזק: כן. • ניסוי אלברט הקטן המפורסם (לא הגיע לסיומו) • פוביות: פחד בלתי פרופורציונלי לסכנה שבמצב. ל- 7-20% מהאוכלוסיה יש סימפטומים, ב- 1% - פוביה חמורה הפוגעת בתפקוד. • תלמידה של Watson: Mary Jones השתמשה בהתנייתנגד בכדי לבטל התניית פחד. • התניית נגד: שילוב CS-ים עם תגובות נוגדות. התהליך הדרגתי • כיום מקובל: Systematic desensitization במצב של רגיעה עמוקה מעלים באופן הדרגתי גירויים יותר ויותר מפחידים

שימושים נוספים בהתניה קלאסית בבני אדם • מניעת אברסיה למזון בחולים המקבלים כמותרפיה ע"י סוכריה מסויימת לפני הטיפול (תהיה אברסיה רק אליה) • פרסום: צימוד של המוצר ל-US המעורר תגובה רגשית חיובית גורם ליחס חיובי יותר למוצר • Conditioned immunosuppression: לטיפול בשלבקת חוגרת (Lupus), למשל. התרופות גורמות לעיכוב מערכת החיסון. צימוד של CS (שמן עם טעם מסויים) עם התרופה  בהמשך ניתן לתת את השמן במקום התרופה ותתקבל אותה תגובה חיסונית! • (אותו דבר אולי באלרגיות – אלרגיה נלמדת למראה פרחים, ולא לאבקנים)

סיכום: התניה קלאסית צימוד בין גירויים גורר (בתנאים מסויימים) למידה ללא תלות בהתנהגות החיה – אך מתבטא בהתנהגות (סרט) נעבור עכשיו להתניה אופרנטית תזכורת: שאלות חשובות • באילו תנאים ישנה למידה (מה תפקיד החיזוק?) • מה נכנס לאסוסיאציה הנוצרת? • האם יש יותר מסוג אחד של למידה?

Edward Thorndike (1874-1949) • רקע: דרווין, נסיונות להראות שבע"ח אינטליגנטים • הראשון שעשה זאת באופן סיסטמטי (לא אנקדוטות). בגיל 23 הגיש תזת דוקטורט:Animal intelligence: An experimental study ofthe associative processes in animals • חתולים רעבים ב-Puzzle boxes (גם כלבים, אפרוחים) • הגדרה אופרציונלית ללמידה: זמן עד החלצות • עקומת למידה: הדרגתית. לא נראהכמו insight אלא ניסוי וטעיה (הצלחה).

Law of Effect • החיזוק "מקבע" (stamps in) קשר בין הגירויים לפעולות מסוימות, ולא אחרות. (satisfiers vs. annoyers) • אין צורך להניח אינטליגנציהנוספת (אין חיקוי), או למידה מתוך תובנה/הבנת סיבתיות • תהליך אוטומטי (ברגע שיש לחיה מטרה) • גם: ניסויי הכללה, אבחנה • אנקדוטה (אבחנה):“I must feed those cats”“I will not feed them”

תפקיד החיזוק עפ"י Thorndike • רק stamping in, אך לא חלק מהאסוסיאציה S-R • תפקיד רק בלמידה  הופך בסוף להרגל ולא תלוי יותר בחיזוק (לא חקר/הסביר הכחדה כלל) • כנ"ל תפקיד המוטיבציה – חיונית ללמידה, לא לביצוע (סרט)

התניה אופרנטית/אינסטרומנטלית • מקור השם (פעולה רצונית על הסביבה; משיגה מטרה) • תגובות נחקרות: ריצה במבוך, לחיצה על דוושה/מקש/key, משיכת חבל, וכו' • סוגי פרוצדורות: • ניתן עם כל US להגביר או להוריד תגובה!בשונה מהתניה קלאסית – לטבע החיזוק אין השפעה אוטומטית על התגובה

מספר גורמים המשפיעים על הביצוע • מוטיבציה (drive) – משפיע גם על למידה וגם על ביצוע (נפרט יותר בהמשך הקורס) • גודל החיזוק (גם: אפקט קונטרסט וכו') • עיכוב החיזוק. הסברים אפשריים: • תגובות מתערבות בזמן ה-delay • ערך החיזוק מוקטן (חיות מעדיפות חיזוק מיידי על מעוכב) • חיזוק חלקי (PRF לעומת CRF) – נפוץ מאוד בחיים. סדר רנדומלי: ריצה מהירה אחרי צעד מחוזק, איטית אחרי לא מחוזק. בסדר קבוע (דוג' – לסירוגין) בהדרגה לומדים את החוקיות.(החיזוק גם יכול לספק מידע. איך נראה שהחיה משתמשת בזכרון הצעד הקודם לקביעת תגובתה?)

Free operant training: B.F. Skinner • בהביוריסט, 1904-1990 • (Watson – אבי הבהביוריזם – שלל מנטליזם) • (1938) The behavior of organisms • טען שפסיכולוגיה צריכה להתבסס רק על מהשניתן למדוד. מדע תאורי ולא תאורטי, black box. • האמין שמלבד מעט רפלקסים כל ההתנהגות היא נלמדת • דיבר על עיצוב התנהגות ע"י חיזוקים. הבנת התנהגות = ניבוי ושליטה בה (functional analysis של התנהגות – הסברים מנטליסטים חסרי ערך ניבויי ושליטתי). • נגד S-R – לא ברור מה ה-S, וכן – למה להניח שנוצרים קשרים תאורטים היפותטים?

Schedules of reinforcement • אימון Free operant בקופסת סקינר • לוחות חיזוק: • Fixed ratio (FR) • Fixed interval (FI) • Variable ratio (VR) • Variable interval (VI) • תוספת מאוחרת: RR/RI • לוחות מורכבים: DRL, DRH... • כמו כן – גירוי מבחין SD (occasion setter) – עוד התנגדות ל-S-R, גירוי שאינו מעורר תגובה בעצמו אלא מעיד על כדאיות של תגובה

מבחינה מעשית – אימון • Pretraining • Shaping • (superstitious behaviors) • יש תגובות שקל יותר ללמד כי הסמיכות הקלאסית מסייעת להם (ניקור ביונים) ויש להיפך. • מתחילים תמיד עם CRF • Ratio מייצר תגובות מהירות יותר מ-interval (yoked) • Interval קל יותר ללמד מ-ratio (בייחוד גבוהים) • מסובך לנתח את ההתנהגות בלוחות אלו: הרבה התיאשו. נחזור לכך בעוד שני שעורים.

2 1 4 0 S2 S3 S1 הרחבת TD להתניה אופרנטית: Actor Critic • S3 - אם בוחרים חצי מהפעמים שמאל, V(S3) = 1, אבל: • בכל בחירה של שמאל תהיה טעות ניבוי חיובית (קבל יותר מהצפוי) • בכל בחירה של ימין תהיה טעות ניבוי שלילית (קבל פחות מהצפוי) • אם החיה תבחר יותר פעמים את הפעולה שיצרה טעות ניבוי חיובית, ההתנהגות תהיה יותר אופטימלית • אותו דבר בדיוק ב-S2 ו-S1 – תכנון אופטימלי לטווח ארוך!

wsa a1 s1 2 1 4 0 S2 S3 Actor s2 a2 Policy s3 a3 S1 TD error δ(t) s1 Critic wsv V(t) - Value Function state action s2 V s3 r(t) - reward Environment TD:לא רק למידת ניבוי אלא גם שליטה Positive prediction error: Things are better than expected →update value of state →update policy (prob. of action) Negative prediction error: Things are worse than expected →update value of state →update policy

Actor-Critic במח: • טעות ניבוי: דופמין • Actor:dorsolateral striatum • Critic: ventral striatum (NAC) • (שני מסלולים דופמינרגים)

הרבה עדויות: דוגמא - O’Doherty et al. 2004 • שני סוגי צעדים: rewarding; neutral • בכל צעד: שני גירויים (High – 60%, Low – 30%) • קבוצה 1 – בוחרת גירויים (התניה אינסטרומנטלית) – אכן רואים העדפה ל-High בצעדי reward, אך לא בצעדי neutral • קבוצה 2 – Yoked (התניה קלאסית), מצביעים רק על הצד שהמחשב בחר (מדד ללמידה – RT) (מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?)

הרבה עדויות: דוגמא - O’Doherty et al. 2004 • (NAC) Ventral striatum – קורלציה עם PE בשתי המטלות: • Dorsal striatum – קורלציה עם PE רק במטלה האינסטרומנטלית:

הרבה עדויות: דוגמא - Roitman et al. 2004 Fast scan cyclic voltammetry in striatum Cue elicited lever-pressing for sucrose at peak of DA burst Cues elicit DA burst in trained but not untrained rats

Corticostriatal synapses: 3 factor learning Stimulus Representation Cortex X1 X2 X3 XN Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Prediction Error (Dopamine) R P PPTN? VTA/SNc

קריאה נוספת: • דוגמאות לחיזוקים שליליים וללוחות חיזוק – באתר • קיצור תולדות הבהביוריזם- http://www.biozentrum.uni-wuerzburg.de/genetics/behavior/learning/behaviorism.html • מאמר קצר של סקינר על אמונות תפלות ביונים http://psychclassics.yorku.ca/Skinner/Pigeon • ביוגרפיה קצרה של סקינר (נכתבה ע"י בתו) - http://www.bfskinner.org/bio.asp • סקינר על התנהגות אופרנטית - http://www.bfskinner.org/Operant.asp • ועוד סיכום טוב על האיש ופועלו - http://www.ship.edu/~cgboeree/skinner.html

התניה אופרנטית – חלק א'

התניה אופרנטית – חלק א'

Presentation Transcript