550 likes | 692 Views
Tópicos Especiais em Aprendizagem. Prof. Reinaldo Bianchi Centro Universitário da FEI 2012. Introdução. Objetivo : Apresentar aos alunos a disciplina de Aprendizado por Reforço (AR ou RL). 4 aulas divididas em: Introdução ao AR + Teoria . Teoria de AR . Teoria Avançada de AR
E N D
Tópicos Especiais em Aprendizagem Prof. Reinaldo Bianchi Centro Universitário da FEI 2012
Introdução • Objetivo: • Apresentar aos alunos a disciplina de Aprendizado por Reforço (AR ou RL). • 4aulas divididas em: • Introdução ao AR + Teoria. • Teoria de AR. • Teoria Avançada de AR • Combinação de AR e outras áreas.
Referências Básicas • “ReinforcementLearning: Anintroduction”, de Sutton & Barto: • http://envy.cs.umass.edu/~rich/book/the-book.html • “ReinforcementLearning: A Survey”, de Kaelbling & Littman: • http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a-html/rl-survey.html • Capítulo 13 do livro Machine Learning, do Tom Mitchell. • Capítulo 21 do livro Artificial Intelligence, Russell & Norvig.
Objetivo desta Aula • Introdução ao Aprendizado por Reforço: • Introdução. • Motivação e Definições Básicas • Avaliação das ações. • O problema do AR. • Aula de hoje: capítulos 1 a 3 do Sutton & Barto.
Motivação • Desenvolver agentes capazes de aprender a escolher ações apenas interagindo com o ambiente • Em alguns problemas, é impraticável o uso de aprendizagem supervisionada (com exemplos) • Como obter exemplos do comportamento correto e representativo para qualquer situação? • E se o agente for atuar em um ambiente desconhecido? • Exemplos: • Criança adquirindo coordenação motora • Robô interagindo com um ambiente para atingir objetivo(s)
O que é o Aprendizado por Reforço? • O aprendizado por reforço estuda como um agente autônomo que tem percepção e ação no seu ambiente pode aprender a escolher as melhores ações a executar, para atingir o seu objetivo. • Tom Mitchell
O que é o Aprendizado por Reforço? • Aprendizado por interação. • Aprendizado orientado a objetivos. • Aprendizado sobre, do e enquanto interagindo com um ambiente externo. • Aprender o que fazer: • Como mapear situações em ações. • Maximizando um sinal de recompensa numérico.
Agente no AR • Situado no tempo. • Aprendizado e planejamento continuo. • Objetivo é modificar o ambiente. Ambiente Ação Estado Recompensa Agente
O que é aprendizagem por reforço? • Problema de aprendizagem (não é uma técnica) • Um agente, em um ambiente • A cada instante de tempo t: • o agente está em um estado s • executa uma ação a • vai para um estado s’ • recebe uma recompensa r • Problema da aprendizagem por reforço: • Como escolher uma política de ações que maximize o total de recompensas recebidas pelo agente
O Agente interage com o seu ambiente Agente Estado Reforço Ação Ambiente a0 a1 a2 s0 s1 s2 … r0 r1 r2 Objetivo: aprender a escolher as ações que maximiza: r0 + r1 + 2 r2 + … , where 0 < 1
Áreas que influenciam o AR Inteligência Artificial Controle e Pesquisa Operacional Psicologia Aprendizado por Reforço Neurociências Redes Neurais Artificiais
Quando usar o AR? • Para problemas de otimização e controle, quando não se conhece o modelo do problema. • Quando se pode treinar com testes e erros.
Pontos chaves do AR • Ao aprendiz não é definido que ações tomar: • Aprendizado por busca, tentativa e erro. • Possibilidade de reforços arrasados; • Sacrifica-se ganhos imediatos e valoriza-se ganhos a longo prazo. • A necessidade de explorar e explotar. • Considera o problema de um agente com um objetivo como um todo, interagindo em um ambiente. • Ambiente estocástico e incerto.
Alguns exemplos notáveis de AR • TD-Gammon: Tesauro • O melhor jogador de Gamão do mundo. • Controle de Elevadores: Crites & Barto • Controladores de alto desempenho. • Gerenciamento de inventario: Van Roy, Bertsekas, Lee&Tsitsiklis • Melhoria de 10–15% sobre os modelos usados. • Dynamic Channel Assignment: Singh & Bertsekas, Nie & Haykin • Alocação de canais em telefonia celular.
Td-Gammon • [Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço: • Vitória: +100 • Derrota: – 100 • Zero para os demais estados do jogo (delayed reward) • Após 1 milhão de partidas contra ele mesmo, joga tão bem quanto o melhor jogador humano
TD-Gammon Tesauro, 1992–1995 • Inicie com uma rede neural aleatória. • Jogue muitas vezes contra si mesmo. • Aprenda destes jogos. • Produziu o melhor jogador de gamão no mundo (incluindo campeões humanos). Action selection by 2–3 ply search Value TD error
TD-Gammon TD-Gammon self-play • Especialistas são escassos e caros • Experiência é barata, e ensina a solução real. 70% Tesauro, 1992 performance against gammontool Neurogammon same network, but trained from 15,000 expert-labeled examples 50% 10 20 40 80 0 # hidden units
Controle de Elevadores Crites and Barto, 1996 10 andares, 4 cabines STATES: button states; positions, directions, and motion states of cars; passengers in cars & in halls ACTIONS: stop at, or go by, next floor REWARDS: roughly, –1 per time step for each person waiting 22 Conservatively about 10 states
Problemas do AR:Complexidade • Escolher uma ação é barato no tempo • No entanto, o tempo de treinamento cresce com #S • Em espaço: O(#S x #A) • Problemas • o número de estados possíveis cresce exponencialmente com a quantidade de características representadas • Como tratar estados contínuos?
Conclusãoinicial • Aprendizado por Reforço é uma técnica de aprendizado muito util quando: • É necessário aprender a que ação tomar, dado que se conhece o estado onde o sistema se encontra. • Não se conhece o modelo do problema. • Seja possível treinar com testes e erros.
Avaliação e seleção das ações.(Evaluative Feedback) Capítulo 2 do Sutton e Barto.
Avaliando ações • Avaliando ações versus instrução através de exemplos de ações corretas: • Reforço puramente avaliativo depende totalmente na ação executada. • Reforço puramente instrutivo independe completamente da ação executada. • Aprendizado supervisionado é instrutivo • Otimização é avaliativo (evaluative).
Avaliando ações • Associativo versus Não-associativo: • Associativo: entradas mapeiam saídas; aprende a melhor saída para cada entrada. • Não-associativo: “aprende” (encontra) uma saída ótima. • O problema do bandido de n-braços (n-armed bandit) é: • Não-associativo. • Avaliativo.
The n-Armed Bandit Problem • Escolha repetidamente uma entre n ações; • Cada escolha é uma jogada. • O objetivo é maximizar as recompensas recebidas a longo prazo. • Para solucionar o problema do bandido de n-braços deve-se: • Explorar uma variedade de ações, e • Exploitar as melhores ações.
The n-Armed Bandit Problem • Após cada jogada at,recebe uma recompensart, onde: • Estes são os valores-ação (action-values), desconhecidos: • Distribuição de rt,depende somente de at.
O dilema exploração/exploitação • Suponha que você estime os valores-ação: • A ação exploitatória (ou gulosa ou greedy) é: • Casos possíveis: • Não se pode explorar o tempo todo; não se pode exploitar o tempo todo... • Não se deve parar a exploração, mas deve ser reduzida com o tempo...
Métodos Valores-Ação Métodos mais simples o possível
Métodos Valores-Ação • São métodos que adaptam as estimativas dos valores-ação. • Exemplo: suponha que na n-ésima jogada a ação a foi escolhida ka vezes, resultando em recompensas • Então a média amostrada é: • e
Seleção de ações -Greedy • A seleção de ações gulosa (greedy) é: • Uma modificação gera a -Greedy: • A maneira mais simples de balancear exploração e exploitação... {
Exemplo:10-Armed Bandit • n = 10 possíveis ações. • Cada Q*(a) é escolhido de maneira aleatória a partir de uma distribuição normal (0,1). • Cada reforço rt também é normal: • 1000 jogadas. • Média de 2000 repetições (trials).
Seleção de ações -Greedy • Método de escolha de ações efetivo e popular... • A maneira mais simples de balancear exploração e exploitação... • Mas possui um problema: • Escolhe de maneira igual entre todas as ações a explorar. • Em tarefas onde a pior ação é muito ruim, pode se tornar um problema.
Seleção de ações Softmax • Métodos de escolha de ação “Softmax” ponderam probabilidades e valores estimados. • O mais comum utiliza uma distribuição de Gibbs ou Boltzmann: • Escolha a ação a em uma jogada t com a probabilidade: • onde t é a “temperatura”.
Implementação Incremental • O método de estimativa da média por amostragem computa a média dos primeiros kreforços utilizando: • Problema: • A cada reforço, mais memória para guardar a lista é necessária e mais esforço para calcular Q é preciso. • Requisitos computacionais e de memória crescem com o tempo, não sendo limitados.
Implementação Incremental • Como computar Q passo a passo, sem guardar todos os reforços?
Implementação Incremental • Ou seja, pode se calcular Q passo a passo usando: • Esta implementação requer memória para armazenar apenas Qk e pouca computação.
Implementação Incremental • Esta é uma forma muito comum para as regras de atualização dos valores: • Onde: • StepSizedetermina quão rápido se atualiza os valores. • Para casos não estacionários... NewEstimate=OldEstimate+StepSize[Target–OldEstimate]
O problema não estacionário • Escolhendo Qk como uma média amostrada é apropriado para o problema onde Q*(a) é não muda com o tempo (é estacionário). • No caso não estacionário deve-se usar uma média exponencial ponderada:
Valores iniciais • O método iterativo visto depende do valor inicial de Qk=0 (a). • Suponha uma inicialização otimista: • No caso do n-armedbandit: Q0 (a)=5, a.
Avaliação versus Instrução • The n-armed bandit problem we considered above is a case in which the feedback is purely evaluative. • The reward received after each action gives some information about how good the action was, but it says nothing at all about whether the action was correct or incorrect, that is, whether it was a best action or not. • Here, correctness is a relative property of actions that can be determined only by trying them all and comparing their rewards.
Avaliação versus Instrução • You have to perform some form of the generate-and-test method whereby you try actions, observe the outcomes, and selectively retain those that are the most effective. • This is learning by selection, in contrast to learning by instruction, and all reinforcement learning methods have to use it in one form or another.
Avaliação versus Instrução • RL contrasts sharply with supervised learning, where the feedback from the environment directly indicates what the correct action should have been. • In this case there is no need to search: • whatever action you try, you will be told what the right one would have been. • There is no need to try a variety of actions; the instructive "feedback" is typically independent of the action selected (so is not really feedback at all).