1 / 22

Chapter 13: Reinforcement Learning

Chapter 13: Reinforcement Learning. INTRODUCTION (1). agent, state, actions, policy 주제 이러한 agents 가 그들이 처한 환경에서 행동함으로써 어떻게 성공적인 제어 정책을 학습할 수 있는가 agent 의 목표는 reward 함수에 의하여 정의 됨 제어 정책 어떤 초기 상태로부터 최대의 누적 보상이 얻어지는 행동을 선택

Download Presentation

Chapter 13: Reinforcement Learning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chapter 13: Reinforcement Learning

  2. INTRODUCTION (1) • agent, state, actions, policy • 주제 • 이러한 agents가 그들이 처한 환경에서 행동함으로써 어떻게 성공적인 제어 정책을 학습할 수 있는가 • agent의 목표는 reward함수에 의하여 정의 됨 • 제어 정책 • 어떤 초기 상태로부터 최대의 누적 보상이 얻어지는 행동을 선택 • 예 : manufacturing optimization problems, sequential scheduling problems

  3. INTRODUCTION (2)

  4. INTRODUCTION (3) • Function approximation problems  : S  A, a = (s) • Delayed reward • training set의 형태가 <s, (s)>가 아니고 행동의 sequence에 대한 reward이므로 temporal credit assignment 문제 발생 • Exploration • 모르는 states 와 actions의 exploration (새 정보 획득) • 이미 학습한 states 와 actions의 exploitation (최대의 누적 reward) • Partially observable states • 실제로 환경에 대한 전체 정보를 알 수 없으므로, 행동을 선택함에 있어 전 단계에서 관찰된 것도 고려해야 함 • Life-long learning • 몇 개의 관련된 작업도 학습하는 것이 요구 됨

  5. THE LEARNING TASK(1) • The problem of learning sequential control strategies • agent’s action : deterministic  nondeterministic • trained : expert  itself • Markov decision process(MDP) • agent는 S를 인식할 수 있고, A를 가지고 있다. • st+1 = (st, at), rt = r(st, at) • 와 r은 환경에 따르며, agent가 알 필요가 없다. • (st, at), r(st, at)은 현재 state와 action에만 의존하며, 이전 states나 actions과는 상관 없다.

  6. THE LEARNING TASK(2) • Task of the agent • learn a policy,  : S  A, (st) = at • discounted cumulative reward • optimal policy

  7. THE LEARNING TASK(3)

  8. Q LEARNING (1) • Training example의 형태가 <s, a>가 아니고 r(si, ai)이므로 직접적으로  : S  A를 학습하기는 어렵다. • Evaluation function • 와 r이 완벽하게 알려져 있을 때만 사용 가능 • 실제 문제에서는 이러한 함수에 대한 결과의 정확한 예측이 불가능 (예: robot control)

  9. Q LEARNING (2) • The Q Function • evaluation function • optimal action • 와 r을 모르는 경우에라도 optimal action을 선택할 수 있다.

  10. Q LEARNING (3) • An Algorithm for Learning Q • iterative approximation • training rule

  11. Q LEARNING (4) • Q learning algorithm For each s,a initialize the table entry to zero Observe the current state s Do forever: •Select an action a and execute it •Receive immediate reward r •Observe the new state s’ •Update the table entry for as follows: • s s’

  12. Q LEARNING (5) • An Illustrative Example • 두 가지 특성

  13. Q LEARNING (6) • Convergence • 수렴 조건 • The system is a deterministic MDP. • The immediate reward values are bounded. • The agent selects actions in such a fashion that it visits every possible state-action pair infinitely often. • Theorem • converges to as n , for all s, a.

  14. Q LEARNING (7) • Proof.

  15. Q LEARNING (8) • Experimentation Strategies • agent가 action을 선택하는 방법 • 를 최대로 하는 action a를 선택 • 다른 action을 이용하지 않게 됨 • 확률적인 방법 • k가 크면 exploit, 작으면 explore • 반복 회수에 따라 k를 변화 시킬 수도 있음

  16. Q LEARNING (9) • Updating Sequence • training example의 순서를 바꿈에 의하여 training 효율을 향상 시킬 수 있다. • 역순으로 update  목표 지점에 도달하는 경로상의 모든 transition에 대하여 한번에 update 가능 (추가의 저장 공간 필요) • 이전의 state-action transition과 reward를 저장해 둔 후, 주기적으로 retrain 한다.

  17. NONDETERMINISTIC REWARDS AND ACTIONS (1) • (s, a)와 r(s, a)은 확률 분포에 의하여 결정 • nondeterministic MDP • s, a에만 의존하고 이전 s, a에는 무관 • expected value

  18. NONDETERMINISTIC REWARDS AND ACTIONS (2) • Training rule • Theorem • converges to as n , for all s, a.

  19. TEMPORAL DIFFERENCE LEARNING • Q learningis a special case of a general class of temporal difference algorithms. • TD() by Sutton (1988)

  20. GENERALIZING FROM EXAMPLES • Target function이 명확한 lookup table로 표현된다는 가정과 모든 가능한 state-action pair가 방문 되어야 한다는 가정은 비현실적이다. (무한 공간이나, action의 수행 비용이 큰 경우)  다른 방법과의 통합이 필요하다. • Lookup table대신 neural network을 사용하여 Q learning algorithm에 BACKPROPAGATION과 같은 function approximation algorithm을 통합한다.

  21. RELATIONSHIP TO DYNAMIC PROGRAMMING • 오래 전부터 연구되어 온 dynamic programming과 밀접한 관련이 있다. • 완벽한 배경 지식 • 계산을 최소화하는 것이 가장 큰 목표 • 직접적 상호 작용이 없는 내부적 simulation (offline) • Bellman’s equation

  22. SUMMARY • Reinforcement learning addresses the problem of learning control strategies for autonomous agents. • The reinforcement learning algorithms addressed in this chapter fit a problem setting known as a Markov decision process. • Q learning is one form of reinforcement learning in which the agent learns an evaluation function over states and actions. • Q learning can be proven to converge to the correct Q function under certain assumptions. • Q learning is a member of a more general class of algorithms, called temporal difference algorithms. • Reinforcement learning is closely related to dynamic programming approaches to Markov decision processes.

More Related