Tópicos Especiais em Aprendizagem

Tópicos Especiais em Aprendizagem Prof. Reinaldo Bianchi Centro Universitário da FEI 2012

Objetivo desta Aula • Aprendizado por Reforço: • Programação Dinâmica • Métodos de Monte Carlo. • Aprendizado por Diferenças Temporais. • Aula de hoje: capítulos 4, 5 e 6 do Sutton & Barto.

Aprendizado pelo Método das Diferenças Temporais Capítulo 6 do Livro Sutton e Barto.

Temporal Difference Learning • Objectives of this chapter... • Introduce Temporal Difference (TD) learning • Focus first on policy evaluation, or prediction, methods • Then extend to control methods

Exemplo: Jogo da velha. X X X X X O X X X O X X X O X X O X O O O X O O X O O O } x’s move ... x x x } o’s move ... ... ... x o o o x x } x’s move x ... ... ... ... ... } o’s move Assuma um oponente imperfeito: as vezes, ele comete erro. } x’s move x o x x o

Uma abordagem AR para Velha • 1. Crie uma tabela com uma entrada por estado: Estado V(s) probabilidade estimada de ganhar .5 ? x 1 win x x x o o 0 loss x o o x o 0 draw o o x x x o x o o

Estado atual Todos os possíveis próximos estados * Uma abordagem AR para Velha • 2. Agora, jogue muitas vezes: • Para escolher a ação, olhe para o que acontece um passo adiante: • Escolha: • 90% das vezes um movimento de explotação(greedy move): a ação que leva ao estado com a maior probabilidade estimada de vencer V(s). • 10% das vezes um movimento de exploração (exploratory move): escolha uma ação aleatória.

Uma abordagem AR para Velha • 3. Atualizando a tabela: • Enquanto se joga, modifica-se os valores dos estados pelos quais se passa durante o jogo. • Tentativa de torna-los estimativas mais precisas da probabilidade de vencer. • Para tanto, se copia (“back-up”) os valores de estado após uma movimentação de explotação (greedy) para o estado anterior ao movimento. • Mais precisamente, ajusta-se o valor do estado anterior para ficar mais próximo do estado seguinte.

Uma abordagem AR para Velha • 3. Atualizando a tabela: • Sabendo que: • s = o estado antes da escolha da ação a executar. • s´ = o estado após a execução da ação escolhida. • Incrementa-se V(s) na direção de V(s´): • Onde: • 0 <  < 1 é á taxa de aprendizado.

Uma abordagem AR para Velha Jogada exploratória: Não atualiza V(s).

Uma abordagem AR para Velha • Este método de atualização dos valores de V(s) é um tipo de aprendizado usando diferenças temporais (temporal-difference learning method). • A modificação em V(s) é baseada na diferença V(s´) - V(s),estimados em dois instantes de tempos diferentes. • Um backup.

Central Idea • If one had to identify one idea as central and novel to reinforcement learning, it would undoubtedly be temporal-difference (TD) learning. • TD learning is a combination of Monte Carlo ideas and dynamic programming (DP) ideas. • Like Monte Carlo methods, TD methods can learn directly from raw experience without a model of the environment's dynamics. • Like DP, TD methods update estimates based in part on other learned estimates, without waiting for a final outcome (they bootstrap).

TD (0) Prediction Policy Evaluation (the prediction problem): for a given policy p, compute the state-value function Recall: target: the actual return after time t target: an estimate of the return

TD (0) Prediction • We know from DP:

T T T T T T T T T T cf. Dynamic Programming T T T

T T T T T T T T T T T T T T T T T T T T Simple Monte Carlo

T T T T T T T T T T T T T T T T T T T T Simplest TD Method

Tabular TD(0) Algorithm

TD Bootstraps and Samples • Bootstrapping: update involves an estimate • MC does not bootstrap • DP bootstraps • TD bootstraps • Sampling: update does not involve an expected value • MC samples • DP does not sample • TD samples

Example: Driving Home

Driving Home • Changes recommended by Monte Carlo methods (a=1) • Changes recommended • by TD methods (a=1)

Advantages of TD Learning • TD methods do not require a model of the environment, only experience. • TD, but not MC, methods can be fully incremental: • You can learn before knowing the final outcome • Less memory • Less peak computation • You can learn without the final outcome • From incomplete sequences • Both MC and TD converge (under certain assumptions to be detailed later), but which is faster?

Random Walk Example • Values learned by TD(0) after • various numbers of episodes

TD and MC on the Random Walk • Data averaged over • 100 sequences of episodes

Optimality of TD(0) Batch Updating: train completely on a finite amount of data, e.g., train repeatedly on 10 episodes until convergence. Compute updates according to TD(0), but only update estimates after each complete pass through the data. For any finite Markov prediction task, under batch updating, TD(0) converges for sufficiently small a. Constant-a MC also converges under these conditions, but to a difference answer!

Random Walk under Batch Updating • After each new episode, all previous episodes were treated as a batch, and algorithm was trained until convergence. All repeated 100 times.

You are the Predictor Suppose you observe the following 8 episodes: A, 0, B, 0 B, 1 B, 1 B, 1 B, 1 B, 1 B, 1 B, 0

You are the Predictor

You are the Predictor • The prediction that best matches the training data is V(A)=0 • This minimizes the mean-square-error on the training set • This is what a batch Monte Carlo method gets

You are the Predictor • If we consider the sequentiality of the problem, then we would set V(A)=.75 • This is correct for the maximum likelihood estimate of a Markov model generating the data. • This is called the certainty-equivalence estimate • This is what TD(0) gets

Learning An Action-Value Function

Sarsa: On-Policy TD Control Turn this into a control method by always updating the policy to be greedy with respect to the current estimate:

Windy Gridworld undiscounted, episodic, reward = –1 until goal

Results of Sarsa on the Windy Gridworld

Q-Learning

O Algoritmo Q-Learning O maisconhecidoalgoritmo de aprendizadoporreforço Simples, facil e poderoso, é o algoritmomaisusado. O Q-Learning aproxima o valor Q* iterativamente, a partir da experiência do agente. É off-policy: computa Q ótimoindependente da politica seguida.

Q-Learning • Algoritmo de computa a função Q ótima (valor das ações) • *(s) = argmaxa[Q(s,a)] • não é função de Tnem de r • Q*(st,at) = r(st,at) +  maxa’ [Q(st+1,a’)] • Como atualizar Q sem precisar de r(st,at) nem de T ?

Aprendendo iterativamente o valor de Q • O Valor de Q pode ser calculado iterativamente, executando-se milhares de iteraçõe, com a fórmula:

Q-Learning: Off-Policy TD Control

Algoritmo Q-Learning para ambientes determinísticos Para todo estado s e ação a, inicialize a tabela Q[s][a] = 0; Para sempre, faça: Observe o estado atual s; Escolha uma ação a e execute; Observe o próximo estado s’ e recompensa r; Atualize a tabela Q: Q[s][a] = Q[s][a] + α (r[s][a] +  maxa’ (Q[s’][a’] – Q[s][a]); s  s’

Exemplo: Mundo de grades Função recompensa

Calculando Q Atualiza-se Q(st) após observar o estado st+1 e recompensa recebida Q(s1,aright) = r + maxa’Q(s2,a’) = 0 + 0.9 max{63,81,100} = 90

Exemplo: Mundo de grades Função recompensa Função V* Uma política de ações ótima Função Q*

On-policy versus off-policy: Cliffwalking • e-greedy, e = 0.1

Simulador RL_Sim Simulador permite “brincar” com um robô andando em um labirinto. Permite ver o processo de computação dos algoritmos mais conhecidos de RL. http://www.cs.cmu.edu/~awm/rlsim/ Ver demo.

AtorCriticmethods

Actor-Critic Methods • Explicit representation of policy as well as value function • Minimal computation to select actions • Can learn an explicit stochastic policy • Can put constraints on policies • Appealing as psychological and neural models

Actor-Critic Details

Access-Control Queuing Task Apply R-learning • n servers • Customers have four different priorities, which pay reward of 1, 2, 3, or 4, if served • At each time step, customer at head of queue is accepted (assigned to a server) or removed from the queue • Proportion of randomly distributed high priority customers in queue is h • Busy server becomes free with probability p on each time step • Statistics of arrivals and departures are unknown n=10, h=.5, p=.06

Summary • Introduced one-step tabular model-free TD methods • Extend prediction to control by employing some form of GPI • On-policy control: Sarsa • Off-policy control: Q-learning • These methods bootstrap and sample, combining aspects of DP and MC methods

Tópicos Especiais em Aprendizagem

Tópicos Especiais em Aprendizagem

Presentation Transcript

Tópicos Especiais em Aprendizagem

Mecânica Quântica