260 likes | 425 Views
מוטיבציה והתנהגות free operant. מבוא ללמידה והתנהגות: התניה ומח שעור 5. נושאים. תרגילים (הקודם, הנכחי, הבא) המשך מודל Actor Critic חזרונת fMRI – O’Doherty+Dayan , Wightman+Phillips – FSCV Discrete trial vs. Free operant – מה חסר ב- A/C ? מאפייני Free operant
E N D
מוטיבציה והתנהגות free operant מבוא ללמידה והתנהגות: התניה ומח שעור 5
נושאים • תרגילים (הקודם, הנכחי, הבא) • המשך מודל Actor Critic • חזרונת • fMRI – O’Doherty+Dayan, Wightman+Phillips – FSCV • Discrete trial vs. Free operant – מה חסר ב-A/C? • מאפייני Free operant • מודל של קצבי התנהגות: אופטימיזציה של קצב חיזוקים... • השוואת לוחות חיזוק: interval vs. ratio • השפעות של מוטיבציה על התנהגות Free operant • איך כל זה מתקשר ל...(מי אם לא) דופמין
2 1 4 0 S2 S3 S1 הבעיה: • Markov Decision Process • States • Actions • Rewards
wsa a1 s1 2 1 4 0 S2 S3 Actor s2 a2 Policy s3 a3 S1 TD error δ(t) s1 Critic wsv V(t) - Value Function state action s2 V s3 r(t) - reward Environment מודל Actor-Critic Positive prediction error: Things are better than expected →update value of state →update policy (prob. of action) Negative prediction error: Things are worse than expected →update value of state →update policy
Actor-Critic במח: • טעות ניבוי: דופמין • Actor:dorsolateral striatum • Critic: ventral striatum (NAC) • שני מסלולים דופמינרגים
הרבה עדויות: דוגמא - O’Doherty et al. 2004 • שני סוגי צעדים: rewarding; neutral • בכל צעד: שני גירויים (High – 60%, Low – 30%) • קבוצה 1 – בוחרת גירויים (התניה אינסטרומנטלית) – אכן רואים העדפה ל-High בצעדי reward, אך לא בצעדי neutral • קבוצה 2 – Yoked (התניה קלאסית), מצביעים רק על הצד שהמחשב בחר (מדד ללמידה – RT) (מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?)
הרבה עדויות: דוגמא - O’Doherty et al. 2004 • (NAC) Ventral striatum – קורלציה עם PE בשתי המטלות: • Dorsal striatum – קורלציה עם PE רק במטלה האינסטרומנטלית:
הרבה עדויות: דוגמא - Roitman et al. 2004 Fast scan cyclic voltammetry in striatum Cue-elicited lever-pressing for sucrose at peak of DA burst (discrete trial: cue→LP→intraoral sucrose+FB tone) Cues elicit DA burst in trained but not untrained rats Cue→DA→LP at DA peak
Corticostriatal synapses: 3 factor learning Stimulus Representation Cortex X1 X2 X3 XN Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Prediction Error (Dopamine) R P PPTN? VTA/SNc
כל זה טוב ויפה אבל... חסר משהו • מה לגבי קצב התנהגות? • לכל פעולה שהחיה בוחרת לעשות, יש גם אלמנט של תזמון/קצב/מרץ (vigor) – מחליטים גם מה לעשות וגם מתי • בא לידי ביטוי במיוחד בניסויי free operant • חשוב בכדי להבין השפעות של מוטיבציה על התנהגות
(Herrnstein 1961) Hungry: Sated: LP first NP LP first NP rate per minute seconds since reinforcement (Herrnstein 1970, Catania+Reynolds 1968) reinforcements per hour כמה תכונות בסיסיות של קצב התנהגות (Niv, Dayan, Joel)
מה יש למודלים לומר על זה? עד כה: כלום
according to schedule UR motivation dependent vigor cost unit cost (reward) cost LP S1 S2 NP S0 2time 1time Other Costs Rewards Costs Rewards choose (action,) = (LP,1) choose (action,)= (LP,2) הרחבת המודל לקצבי התנהגות how fast ? (+ “eating time”)
המטרה לבחור פעולות (actions ו-latencies) כך שקצב החיזוקיםנטו ('רווחים' פחות 'עלויות' לחלק בזמן) יהיה מקסימלי
Q(a,,S)= Rewards – Costs + Future Returns Differential value of taking action a with latency when in state S R = average rewards minus costs, per unit time ARL – איך יראו הערכים וחוק הלמידה? • קריטריון שונה מסכום חיזוקים מקסימלי או discounted sum of rewards • באופן כללי – ערכים דיפרנציאלים: • ובמקרה שלנו:
N1/(N1+N2) R1/(R1+R2) Hungry: Sated: LP NP LP NP תוצאות: התנהגות אופטימלית בלוחות RI matching: response ratio = reinforcement ratio reinforcements per hour
לוחות ratio – מציאת אופטימום אנליטי בכדי למצוא מקסימום נגזור עפ"י ונשווה לאפס: כלומר: קצב הלחיצות תלוי רק בקבוע המרץ ובקצב החיזוקים הממוצע
לוחות interval מול לוחות ratio • תעלומה:לוחות interval יוצרים קצב לחיצה נמוך יותר מ-ratio. מדוע? • בלוחות ratio ראינו כבר: • בלוחות interval גם ה-state הבא תלוי ב-, כך שנקבל: • כך שקצב הלחיצות האופטימלי נמוך יותר...
שתי דרכי השפעה של מוטיבציה על התנהגות: • מוטיבציה משפיעה על ערכי החיזוקים, וכך מכוונת התנהגות לכיוון תוצאות עם ערך יותר גבוה (directing) השפעה ספציפית על פעולות שונות, תלוית תוצאה. • מוטיבציה ממריצה התנהגות (energizing), קובעת רמת drive כללית השפעה לא תלוית תוצאה, כללית לכל הפעולות.הסיבה לכך לא אינטואיטיבית.
control high utility response rate / minute seconds from reinforcement UR50% response rate / minute seconds from reinforcement מה אומר על כך המודל? מניפולצית 'רעב' • יותר LP (directing) אבל גם... • קיצור ה-latency של 'Other' (energizing)! RR25 energizing effect directing effect
unadjusted Q values adjusted value higher R latency to action () איך זה נראה מאחורי הקלעים? • קצב החיזוקים קובע את העלות של הזמן ('מחיר העצלנות') • קצב חיזוקים גבוה יותר לחץ כללי לתגובות מהירות יותר • יוצר אפקט של 'המרצה' על כל הפעולות, כפתרון אופטימלי! Q(a,,S)= Rewards – Costs + Future–Opportunity ReturnsCost
ומה לגבי דופמין? • כבר ראינו (או שהאמנתם לי) שדופמין קשור להתניה קלאסית ואופרנטית, ע"י כך שהוא מהווה סיגנל 'טעות ניבוי' שהוא קריטיללמידה ואף לבחירת התנהגות • אבל: לדופמין גם אפקטים על קצב התנהגות • יותר דופמין (אמפטמינים, אגוניסטים, פחות מפנים) קצב עולה • פחות דופמין (lesion, אנטגוניסטים, מפנים) קצב יורד דרמטית (פרקינסון, קצב ריצה במבוך, קצב לחיצה על דוושה) • מזכיר לכם משהו?
number of LPs in 30 minutes Model simulation number of LPs in 30 minutes Aberman and Salamone 1999 הצעה: קצב חיזוקים=tonic dopamine • כלומר: אנו מציעים שרמת הרקע של דופמין מחושבת מקצב החיזוקים נטו (למשל, ע"י סכימת כל הסיגנלים של טעויות הניבוי) • מצפים לרמת רקע גבוהה יותר במצב מוטיבציוני גבוה • למידה של מיפוי 'מוטיבציה קצב חיזוקים' תאפשר חיזוי ואפקטים ישירים של מוטיבציה על קצב התנהגות
ולסיום: ניסויי עלות/תועלת Cousins, Atherton,Turner and Salamone (1996)
אפקטים מנוגדים של דופמין • זרוע חסומה: CV, CU גבוהים יותר, אך גם חיזוק גדול יותר ה'מפצה' על המחיר הגבוה. • Dopamine lesion: • רמת דופמין ברקע יורדת מחיר הזמן יורד ניתן לעלות על המחסום לאט יותר ולשלם פחות מחיר (אכן רואים ירידה ב-RT) • אבל: גם סיגנלי טעות ניבוי נמוכים יותר, למשל 42; 21 • בסה"כ למרות המחיר הנמוך יותר, הפרשי ה'חיזוק' כבר לא מצדיקים בחירה בזרוע החסומה