1 / 26

מוטיבציה והתנהגות free operant

מוטיבציה והתנהגות free operant. מבוא ללמידה והתנהגות: התניה ומח שעור 5. נושאים. תרגילים (הקודם, הנכחי, הבא) המשך מודל Actor Critic חזרונת fMRI – O’Doherty+Dayan , Wightman+Phillips – FSCV Discrete trial vs. Free operant – מה חסר ב- A/C ? מאפייני Free operant

brooks
Download Presentation

מוטיבציה והתנהגות free operant

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. מוטיבציה והתנהגות free operant מבוא ללמידה והתנהגות: התניה ומח שעור 5

  2. נושאים • תרגילים (הקודם, הנכחי, הבא) • המשך מודל Actor Critic • חזרונת • fMRI – O’Doherty+Dayan, Wightman+Phillips – FSCV • Discrete trial vs. Free operant – מה חסר ב-A/C? • מאפייני Free operant • מודל של קצבי התנהגות: אופטימיזציה של קצב חיזוקים... • השוואת לוחות חיזוק: interval vs. ratio • השפעות של מוטיבציה על התנהגות Free operant • איך כל זה מתקשר ל...(מי אם לא) דופמין

  3. 2 1 4 0 S2 S3 S1 הבעיה: • Markov Decision Process • States • Actions • Rewards

  4. wsa a1 s1 2 1 4 0 S2 S3 Actor s2 a2 Policy s3 a3 S1 TD error δ(t) s1 Critic wsv V(t) - Value Function state action s2 V s3 r(t) - reward Environment מודל Actor-Critic Positive prediction error: Things are better than expected →update value of state →update policy (prob. of action) Negative prediction error: Things are worse than expected →update value of state →update policy

  5. Actor-Critic במח: • טעות ניבוי: דופמין • Actor:dorsolateral striatum • Critic: ventral striatum (NAC) • שני מסלולים דופמינרגים

  6. הרבה עדויות: דוגמא - O’Doherty et al. 2004 • שני סוגי צעדים: rewarding; neutral • בכל צעד: שני גירויים (High – 60%, Low – 30%) • קבוצה 1 – בוחרת גירויים (התניה אינסטרומנטלית) – אכן רואים העדפה ל-High בצעדי reward, אך לא בצעדי neutral • קבוצה 2 – Yoked (התניה קלאסית), מצביעים רק על הצד שהמחשב בחר (מדד ללמידה – RT) (מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?)

  7. הרבה עדויות: דוגמא - O’Doherty et al. 2004 • (NAC) Ventral striatum – קורלציה עם PE בשתי המטלות: • Dorsal striatum – קורלציה עם PE רק במטלה האינסטרומנטלית:

  8. הרבה עדויות: דוגמא - Roitman et al. 2004 Fast scan cyclic voltammetry in striatum Cue-elicited lever-pressing for sucrose at peak of DA burst (discrete trial: cue→LP→intraoral sucrose+FB tone) Cues elicit DA burst in trained but not untrained rats Cue→DA→LP at DA peak

  9. Corticostriatal synapses: 3 factor learning Stimulus Representation Cortex X1 X2 X3 XN Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Prediction Error (Dopamine) R P PPTN? VTA/SNc

  10. כל זה טוב ויפה אבל... חסר משהו • מה לגבי קצב התנהגות? • לכל פעולה שהחיה בוחרת לעשות, יש גם אלמנט של תזמון/קצב/מרץ (vigor) – מחליטים גם מה לעשות וגם מתי • בא לידי ביטוי במיוחד בניסויי free operant • חשוב בכדי להבין השפעות של מוטיבציה על התנהגות

  11. (Herrnstein 1961) Hungry: Sated: LP first NP LP first NP rate per minute seconds since reinforcement (Herrnstein 1970, Catania+Reynolds 1968) reinforcements per hour כמה תכונות בסיסיות של קצב התנהגות (Niv, Dayan, Joel)

  12. מה יש למודלים לומר על זה? עד כה: כלום

  13. according to schedule UR motivation dependent vigor cost unit cost (reward) cost  LP S1 S2 NP S0 2time 1time Other Costs Rewards Costs Rewards choose (action,) = (LP,1) choose (action,)= (LP,2) הרחבת המודל לקצבי התנהגות how fast ? (+ “eating time”)

  14. המטרה לבחור פעולות (actions ו-latencies) כך שקצב החיזוקיםנטו ('רווחים' פחות 'עלויות' לחלק בזמן) יהיה מקסימלי

  15. Q(a,,S)= Rewards – Costs + Future Returns Differential value of taking action a with latency  when in state S R = average rewards minus costs, per unit time ARL – איך יראו הערכים וחוק הלמידה? • קריטריון שונה מסכום חיזוקים מקסימלי או discounted sum of rewards • באופן כללי – ערכים דיפרנציאלים: • ובמקרה שלנו:

  16. N1/(N1+N2) R1/(R1+R2) Hungry: Sated: LP NP LP NP תוצאות: התנהגות אופטימלית בלוחות RI matching: response ratio = reinforcement ratio reinforcements per hour

  17. לוחות ratio – מציאת אופטימום אנליטי בכדי למצוא מקסימום נגזור עפ"י  ונשווה לאפס: כלומר: קצב הלחיצות תלוי רק בקבוע המרץ ובקצב החיזוקים הממוצע

  18. לוחות interval מול לוחות ratio • תעלומה:לוחות interval יוצרים קצב לחיצה נמוך יותר מ-ratio. מדוע? • בלוחות ratio ראינו כבר: • בלוחות interval גם ה-state הבא תלוי ב-, כך שנקבל: • כך שקצב הלחיצות האופטימלי נמוך יותר...

  19. מה לגבי מוטיבציה?

  20. שתי דרכי השפעה של מוטיבציה על התנהגות: • מוטיבציה משפיעה על ערכי החיזוקים, וכך מכוונת התנהגות לכיוון תוצאות עם ערך יותר גבוה (directing)  השפעה ספציפית על פעולות שונות, תלוית תוצאה. • מוטיבציה ממריצה התנהגות (energizing), קובעת רמת drive כללית  השפעה לא תלוית תוצאה, כללית לכל הפעולות.הסיבה לכך לא אינטואיטיבית.

  21. control high utility response rate / minute seconds from reinforcement UR50% response rate / minute seconds from reinforcement מה אומר על כך המודל? מניפולצית 'רעב' • יותר LP (directing) אבל גם... • קיצור ה-latency של 'Other' (energizing)! RR25 energizing effect directing effect

  22. unadjusted Q values adjusted value higher R latency to action () איך זה נראה מאחורי הקלעים? • קצב החיזוקים קובע את העלות של הזמן ('מחיר העצלנות') • קצב חיזוקים גבוה יותר  לחץ כללי לתגובות מהירות יותר • יוצר אפקט של 'המרצה' על כל הפעולות, כפתרון אופטימלי! Q(a,,S)= Rewards – Costs + Future–Opportunity ReturnsCost

  23. ומה לגבי דופמין? • כבר ראינו (או שהאמנתם לי) שדופמין קשור להתניה קלאסית ואופרנטית, ע"י כך שהוא מהווה סיגנל 'טעות ניבוי' שהוא קריטיללמידה ואף לבחירת התנהגות • אבל: לדופמין גם אפקטים על קצב התנהגות • יותר דופמין (אמפטמינים, אגוניסטים, פחות מפנים)  קצב עולה • פחות דופמין (lesion, אנטגוניסטים, מפנים)  קצב יורד דרמטית (פרקינסון, קצב ריצה במבוך, קצב לחיצה על דוושה) • מזכיר לכם משהו?

  24. number of LPs in 30 minutes Model simulation number of LPs in 30 minutes Aberman and Salamone 1999 הצעה: קצב חיזוקים=tonic dopamine • כלומר: אנו מציעים שרמת הרקע של דופמין מחושבת מקצב החיזוקים נטו (למשל, ע"י סכימת כל הסיגנלים של טעויות הניבוי) • מצפים לרמת רקע גבוהה יותר במצב מוטיבציוני גבוה • למידה של מיפוי 'מוטיבציה  קצב חיזוקים' תאפשר חיזוי ואפקטים ישירים של מוטיבציה על קצב התנהגות

  25. ולסיום: ניסויי עלות/תועלת Cousins, Atherton,Turner and Salamone (1996)

  26. אפקטים מנוגדים של דופמין • זרוע חסומה: CV, CU גבוהים יותר, אך גם חיזוק גדול יותר ה'מפצה' על המחיר הגבוה. • Dopamine lesion: • רמת דופמין ברקע יורדת מחיר הזמן יורד ניתן לעלות על המחסום לאט יותר ולשלם פחות מחיר (אכן רואים ירידה ב-RT) • אבל: גם סיגנלי טעות ניבוי נמוכים יותר, למשל 42; 21 • בסה"כ למרות המחיר הנמוך יותר, הפרשי ה'חיזוק' כבר לא מצדיקים בחירה בזרוע החסומה

More Related