1 / 54

Ambientes e Arquiteturas de Agentes

Ambientes e Arquiteturas de Agentes. Jacques Robin Geber Ramalho CIn-UFPE. Wumpus. Agente caçador de tesouros. Bem-vindos ao “Mundo do Wumpus”. O Mundo do Wumpus: formulação do problema. Ambiente: paredes, Wumpus, cavernas, buracos, ouro Estado inicial:

Download Presentation

Ambientes e Arquiteturas de Agentes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ambientes e Arquiteturas de Agentes Jacques Robin Geber Ramalho CIn-UFPE

  2. Wumpus Agente caçador de tesouros Bem-vindos ao “Mundo do Wumpus”

  3. O Mundo do Wumpus: formulação do problema • Ambiente: • paredes, Wumpus, cavernas, buracos, ouro • Estado inicial: • agente na caverna (1,1) com apenas uma flecha • Wumpus e buracos em cavernas quaisquer • Objetivos: • pegar a barra de ouro e voltar à caverna (1,1) com vida

  4. O Mundo do Wumpus: formulação do problema • Percepções: • fedor (ao lado do Wumpus) • brisa (ao lado dos buracos) • brilho (na caverna do ouro) • choque (contra a parede da caverna) • grito do Wumpus (quando morre) • Ações: • avançar para próxima caverna • girar 90 graus à direita ou à esquerda • pegar um objeto na mesma caverna que o agente • atirar na direção para onde o agente está olhando (a flecha pára quando encontra uma parede ou mata o Wumpus) • sair da caverna

  5. 4 B brisa fedor O W B 3 fedor brisa, luz brisa 2 fedor brisa A 1 B brisa brisa início 1 2 3 4 Codificação do Mundo do Wumpus A - Agente W - Wumpus B - Buraco O - Ouro X? - possível X V - Caverna visitada Percepção = [fedor,brisa,luz,choque,grito]

  6. 4 4 3 3 2 2 ok A B? V A ok 1 1 ok ok B? b ok 1 2 3 4 1 2 3 4 ok Percebendo, Raciocinando e Agindo no Mundo do Wumpus • Seqüência perceptiva: [nada,nada,nada,nada,nada] [nada,brisa,nada,nada,nada] • Modelo do mundo mantido pelo agente: t=0 t=2

  7. 4 4 B? A B? W W 3 3 f b l A f 2 2 V V f ok ok ok ok ok V V V V B! B! 1 1 b ok b ok ok ok 1 2 3 4 1 2 3 4 Percebendo, Raciocinando e Agindo no Mundo do Wumpus • Seqüência perceptiva: [fedor,nada,nada,nada,nada] [fedor,brisa,nada,luz,nada] • Modelo do mundo mantido pelo agente: • Sequência de ações: t=11: Vai para (2,3) e encontra o ouro! t=7: Decide ir para (2,2), único OK não visitado

  8. Exercício... Vamos achar o ouro? B! 4 3 O 2 B! W! 1 A 1 2 3 4

  9. Exemplos de agentes

  10. Dimensões classificadoras dos ambientes • Universo: • Físico: robôs, humanos, animais • Software: softbots • Realidade virtual (simulação do ambiente físico): softbots e avatares • Características: • parcialmente x totalmente observável • estacionário x dinâmico x tempo-real • determinista x estocástico • discreto x contínuo • episódico x não-episódico • mono-agente x multi-agente • diversidade • tamanho

  11. Acessibilidade • Totalmente observável ou acessível: • Sensores do agente conseguem perceber a cada instante todos os aspectos do ambiente relevantes para a escolha da ação • Parcialmente observável ou inacessível ou com variáveis escondidas • ex. wumpus não é acessível, xadrez é • Fontes de inacessibilidade: • Escopo limitado dos sensores • Domínios inacessíveis por qualquer sensor • Granularidade insuficiente dos sensores • Ruído nos sensores: • Limite a confiabilidade das percepções no lugar do seu escopo

  12. Determinismo • Determinista: pode se prever exatamente próximo estado do ambiente apenas a partir da ação executada • Não determinista ou estocástica: conseqüências de uma ação no ambiente parcialmente imprevisível • Fontes de não determinismo: • Inerente ao ambiente: granularidade quântica, jogos com aleatoriedade • Outros agentes no ambientes • Ruído nos atuadores • Granularidade insuficientemente dos atuadores ou da representação utilizada para raciocinar

  13. Único ciclo percepção-raciocínio-ação durante o qual ambiente não muda Estado 1 Estado 2 Ambiente Estacionário Agente Raciocínio Percepção Ação • Vários ciclos percepção-raciocínio-ação com ambiente mudando apenas como conseqüências das ações do agente ... Ambiente Seqüencial Estado 1 Estado 2 Estado 3 Estado N Agente Raciocínio Raciocínio Raciocínio Percepção Ação Percepção Ação Percepção Ação Dinamicidade: ambientesestacionários e seqüenciais

  14. Ambiente pode mudar entre última ação e próxima percepçãomas não durante raciocínio ... Ambiente concorrente síncrono Estado 2 Estado 3 Estado 1 Estado 4 Estado 5 Agente Raciocínio Raciocínio Percepção Ação Percepção Ação • Ambiente pode mudar a qualquer momento, inclusive durante raciocínio ... Ambiente concorrente assíncrono Estado 2 Estado 3 Estado 6 Estado 1 Estado 4 Estado 5 Agente Raciocínio Percepção Ação Percepção Ação Raciocínio Dinamicidade: ambientesconcorrentes síncronos e assíncronos

  15. Número de agentes • Mono-agente com ambiente passivo • O ambiente muda apenas como resultado das ações do único agente • Mono-agente com ambiente ativo • O ambiente muda espontaneamente sem intervenção do agente • Multi-agente cooperativo • Multi-agente competitivo • Multi-agente cooperativo e competitivo • Com alianças fixas ou dinâmicas

  16. Natureza matemática das grandezas Grandezas: • Valores fornecidos pelos sensores e disponíveis para controlar atuadores • Cardinalidade e atributos dos objetos, relações, eventos, locais do ambiente Booleanas Discreta Binárias Dicotômicas Qualitativas Nominal Ordinal Intervalar Quantitativas Fracional R Contínua [0,1]

  17. Binário: Booleano, ex, Male  {True,False} Dicotômico, ex Sex  {Male,Female} Nominal ou categórico ou simbólico: partição finita de valores sem ordem nem medida são apenas = ou  ex, brasileiro, francês, americano Ordinal ou enumerado ou discreto: partição finita de valor ordenada (parcialmente ou totalmente) sem medida são apenas =, , , > ex, fraco, médio, bom, excelente Intervalar: partição finita de valor ordenada com medida m definindo distância d:X,Y, d(X,Y) = |m(X)-m(Y)| sem zero inerente ex, temperatura em grau Celsius Fracional ou proporcional: partição com distância zero inerente todos os operadores matemático aplicam-se ex, temperatura em grau Kelvin Contínuo: conjunto infinito de valores ordenadas com medida, isomorfo a R Natureza matemática das grandezas

  18. Outras características • Episódico: • A experiência do agente é dividida em episódios • Ação em cada episódio independente das ações nos episódios prévios • ex.: classificador de imagens é episódico, xadrez não campeonato de futebol é episódico, partida não • Ambiente aberto: • Inacessível, estocástico, não episódico, contínuo, assíncrono multi-agente • ex: RoboCup, Internet, bolsa de valores

  19. Tamanho, número de instâncias de: percepções, ações e objetivos do agente agentes, objetos, locais, relacionamentos, estados e eventos do ambiente Escalabilidade da execuçãodo raciocínio do agente Diversidade, número de classes de: percepções, ações, objetivos do agente agentes, objetos, locais, relacionamentos, estados e eventos do ambiente Escalabilidade do processode aquisição do conhecimentonecessário para raciocinar Tamanho é documento !

  20. Exemplos de ambientes

  21. Arquiteturas de agentes • Agente reflexo (puramente reativo) • Agente autômato (reativo com estado interno) • Agente cognitivo (baseado em objetivos) • Agente deliberativo (planejador) • Agente híbrido reativo-deliberativo • Arquiteturas em camadas • Agente otimizador (baseado em utilidades, decision-theoretic) • Agente adaptativo (learning)

  22. Agente reflexo(puramente reativo) Ambiente Sensores Regras Percepção  Ação A(t) = h(P(t)) Atuadores

  23. Agente P Raciocínio Escolhadas ações:A = g(I,O) A Lembrando... Ambiente Interpretaçãodas percepções: I = f(P) Sensores Objetivos Atuadores

  24. Ambiente Interpretação das percepções: I = f(P) P Sensores Regras Percepção  Ação A(t) = h(P(t)) Objetivos A Escolha das ações:A = g(I,O) Atuadores E então?

  25. Agente reflexo • Funcionamento • Usa regras ou função associando diretamente percepção com ação • ex. Se velocidade > 60 então multar • ex. Se luz do freio do carro da frente acender, então frear • Dada a percepção, encontra a primeira regra que casa e executa ação • Exemplo no Wumpus • IF visualPerception = glitter THEN action = pick • see(glitter)  do(pick) (representação em lógica)

  26. Agente reflexo • Vantagens e desvantagens • Regras condição-ação: representação inteligível, modular e eficiente • Não pode armazenar uma seqüência perceptiva, pouca autonomia • Limitações do agente reativo puro no mundo do Wumpus • um agente ótimo deveria: • recuperar o ouro ou • determinar que é muito perigoso pegar o ouro e • em qualquer dos casos acima, voltar para (1,1) e sair da caverna. • Um agente reativo nunca sabe quando sair, • estar com o ouro e estar na caverna (1,1) não fazem parte da sua percepção (se pegou, esqueceu). • esses agentes podem entrar em laços infinitos.

  27. Ambiente Interpretador de percepções Regras: percepção  modelo  modelo Sensores Modelo dos ambientes (passados) e atual Atualizador do modelo do ambiente Regras:modelo  modelo Escolhedor de ações Regras: modelo  ação, e ação  modelo  modelo Atuadores Agente autômato(reativo com estado interno) Objetivos

  28. Agente autômato • Regras associando indiretamente percepção com ação via construção e manutenção de um modelo do ambiente • Ação depende de: • percepção atual + percepções anteriores + ações anteriores ... • Motivação • Nem o ambiente todo é acessível no mesmo momento • ex. ultrapassagem de um carro • Percepções instantâneas iguais podem corresponder a estados diferentes • ex. Wumpus: cavernas visitadas • Limitações: • Pouca autonomia • Não tem objetivos explícitos

  29. Regras de agente autômato • Regras percepção modelo  modelo • IF visualPercept at time T is glitterAND location of agent at time T is (X,Y)THEN location of gold at time T is (X,Y) • X,Y,T see(glitter,T) loc(agent,X,Y,T)loc(gold,X,Y,T). • Regras modelo modelo • IF agent is with gold at time TAND location of agent at time T is (X,Y)THEN location of gold at time T is (X,Y) • X,Y,T withGold(T)  loc(agent,X,Y,T)loc(gold,X,Y,T).

  30. Regras de agente autômato • Regras modelo  ação • IF location of agent at time T = (X,Y) AND location of gold at time T = (X,Y) THEN choose action pick at time T • X,Y,T loc(agent,X,Y,T)  loc(gold,X,Y,T) do(pick,T) • Regras ação  modelo  modelo • IF choosen action at time T was pick THEN agent is with gold at time T+1 • T done(pick,T) withGold(T+1).

  31. Atualizador dos objetivos Regras:modelo  objetivos  objetivos Objetivos Agente cognitivo(baseado em objetivos) Ambiente Interpretador de percepções Regras: percepção  modelo  modelo Sensores Modelo dos ambientes (passados) e atual Atualizador do modelo do ambiente Regras:modelo  modelo Escolhedor de ação Regras: modelo  objetivos  ação, e ação  modelo  modelo Atuadores

  32. Agente cognitivo • Vantagens: • Mais flexível e autônomo • ex. adapta suas escolhas a situações resumidas em objetivos dinâmicos • Limitações: • Escolhe ações uma por uma: • Não planeja seqüências de ações levando ao seu objetivo • Ações baseadas apenas no modelo atual (ou passado) do ambiente • Não tente prever modelos futuros do ambiente • Não trata objetivos conflitantes • ex. chegar ao destino pelo caminho mais curto, seguro, barato, rápido e bonito

  33. Regras de agente cognitivo • Regras modelo  objetivo ação • IF goal of agent at time T is to return to (1,1) AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action turn left at time T • X,Y,T, (N,M,K goal(T,loc(agent,1,1,T+N)) loc(agent,X,Y,T)  orientation(agent,90,T)  safe(loc(X,Y+1),T) loc(agent,X,Y+1,T-M)  safe(loc(X-1,Y),T)  loc(agent,X,Y+1,T-K)) do(turn(left),T)

  34. Regras de agente cognitivo • Regras modelo  objetivo ação • IF goal of agent at time T is to find gold AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action forward at time T • X,Y,T, (N,M,K goal(T,withGold(T+N)) loc(agent,X,Y,T) orientation(agent,90,T)  safe(loc(X,Y+1),T)  loc(agent,X,Y+1,T-M)  safe(loc(X-1,Y),T)  loc(agent,X,Y+1,T-K)) do(forward,T)

  35. Regras de agente cognitivo • Regras modelo  objetivo modelo //Se o agente queria estar com o ouro e conseguiu, //atualizar objetivo para voltar para (1,1) • IF goal of agent at time T-1 was to find gold AND agent is with gold at time T THEN goal of agent at time T+1 is to be in location (1,1) • T, (N goal(agent,T-1,withGold(T+N))  withGold(T)M goal(agent,T,loc(agent,1,1,T+M))).

  36. Ambiente Modelo dosambientes (passados)e atual Interpretador de percepções Regras: percepção(t)  modelo(t-1)  modelo(t) Sensores Atualizador do modelo do ambiente Regras:modelo(t)  modelo(t) Atualizador dos objetivos Regras:modelo(t)  objetivos(t-1)  objetivos(t) Objetivos Previsor de ambientes futuros Regras: modelo(t)  ação(t)  modelo(t+1) e modelo(t)  modelo(t+1) Modelo dos ambientesfuturos hipotéticos Escolhedor de ação Regras: resultado([ação(t),...,ação(t+n)]) = modelo(t+n) modelo(t+n) objetivo(t)  faz(ação(t)) Atuadores Agente deliberativo(planejador)

  37. Agente deliberativo • Associação percepção-ação indireta: • Mediada por modelo atual do ambiente, objetivo explícito • e previsão de estados futuros do ambiente resultando de seqüências de ações • Encadeia regras: • para construir plano multi-passo necessário para atingir objetivo a partir de modelo atual • ex. taxista encontrando a rota para o destino do passageiro • ex. taxista freia porque quer evitar prejuízo e dor de cabeça no futuro • Vantagens: • Escolha ações melhores: mais relevantes e mais seguras • Desvantagens: • Custo da deliberação pode ser excessiva em ambientes tempo real

  38. Regras de agente deliberativo Regras objetivo  modelo  ações • IF goal of agent at time T is to be in (X+1,Y+1)AND agent is in (X,Y) at time T AND location (X+1,Y) is safe at time TTHEN change goal of agent at time T to be (X+1,Y)AND set goal of agent at time T+1+N to be in (X+1,Y+1) • IF goal of agent at time T is to be in (X+1,Y)AND location (X+1,Y) is safe at time TAND agent is in (X,Y) at time TAND agent orientation is 90o at time TTHEN choose action sequence [turn(right),forward] • IF goal of agent at time T is to be (X,Y+1)AND location (X,Y+1) is safe at time TAND agent is in (X,Y) at time TAND agent orientation is 0o at time TTHEN choose action sequence [turn(left),forward]

  39. Regras de agente deliberativo Regras objetivo  modelo  ações • X,Y,Y (N goal(T,loc(agent,X+1,Y+1,T+N)) safe(loc(X+1,Y+1), T)  loc(agent,X,Y,T) M,I goal(T,loc(agent,X+1,Y,T+M)) goal(T+1+I,loc(agent,X+1,Y+1,T+N))) • X,Y,Y N goal(T,loc(agent,X+1,Y,T+N)) safe(loc(X+1,Y), T)  loc(agent,X,Y,T) orientation(agent,90,T) do(turn(right),T)  do(forward,T+1) • X,Y,Y N goal(T,loc(agent,X,Y+1,T+N)) safe(loc(X,Y+1), T)  loc(agent,X,Y,T) orientation(agent,0,T) do(turn(left),T)  do(forward,T+1)

  40. Ambiente Thread Reflexa Regras Reativas Percepção Ação Sensores Sincronizador Thread Deliberativa Modelo dosambientes: atual passados e futuros Interpretador de percepções Atualizador do modelo do ambiente Previsor de ambientes futuros Atualizador dos objetivos Objetivos Atuadores Escolhedor de ação Agente híbrido reflexo-deliberativo

  41. Agente híbrido reflexo-deliberativo • Vantagens: • Toma a melhor decisão possível dado tempo de deliberação disponível • Robusto e experto • Desvantagens: • Tempo de desenvolvimento • Mesmo conhecimento codificado em formas diferentes em regras reativas e deliberativas • Coerência do comportamento global resultante difícil garantir • Depuração dificultada pelos problemas de sincronização • Nem tantos ambientes requerem ciclos percepção-raciocínio-ação deduração muito desigual

  42. Arquiteturas em camadas • Em ambientes abertos: • Número muito grande de percepções e ações possíveis impede raciocinar diretamente a nível delas • Explosão combinatória da base de regras reflexas ou dos fatos modelo do ambiente • É necessário decompor raciocínio em camadas de abstração • Formas de abstração: • Discretização • Agrupamento (espacial, temporal, por partes, por papeis/funções) • Aproximação Raciocina Abstratamente Abstrai Detalhe Percebe Detalhadamente Age Detalhadamente

  43. Ambiente Interpretador de percepções Nível 2: Nível 1: Sensores Nível 0: Modelo do ambiente Atualizador do modelo do ambiente Nível 2: Nível 2: Escolhedor e controlador de ações Nível 2: Nível 1: Atuadores Nível 0: Agente autômato em camadas

  44. Y X Exemplo de camadas de abstração:

  45. Y X Exemplo de camadas de abstração:

  46. Ambiente Interpretador de percepções Regras: percepção(t)  modelo(t-1)  modelo(t) Sensores Modelo dosambientes (passados)e atual Atualizador do modelo do ambiente Regras:modelo(t)  modelo(t) Previsor de ambientes futuros Regras:modelo(t)  ação(t)  modelo(t+1) e modelo(t)  modelo(t+1) Atualizador dos objetivos Regras:modelo(t)  objetivos(t-1)  objetivos(t) Modelo dos ambientesfuturos hipotéticos Utilidadesu:modelos x objetivos  R Objetivos Escolhedor de ação Atuadores Agente otimizador deliberativo (baseado em utilidades)

  47. Ambiente Interpretador de percepções Regras: percepções  ações executáveis Sensores Objetivos Escolhedor de ações Utilidadesu:ações  R Atuadores Agente otimizador reativo (baseado em utilidades)

  48. Agente otimizador • Incorpora função de utilidade que define: • preferências entre estados do ambientes ou ações a executar • dados os objetivos atuais do agentes • Permite escolher melhor compromisso entre: • vários objetivos conflitantes, ou • vários objetivos com probabilidades diferentes de serem alcançado • Vantagem: • muitos ambientes requerem fazer compromissos entre vários objetivos de alcançabilidade incerta • Limitações: • Abordagens existentes tendem a ser pouco escaláveis em termos diversidade dos objetos, relacionamentos, agentes e eventos do ambiente

  49. Regras de agente otimizador • IF at time T agent has goal to be with goldAND agent is not with gold at time TAND agent is in (X,Y) at time TAND a wumpus is in (X+1,Y) at time TAND wumpus is alive at time TAND wall in (X-1,Y)AND wall in (X-1,Y-1)AND wall in (X,Y-2)AND wall in (X+1,Y-2)AND agent visited (X,Y-1) AND agent visited (X+1,Y-1)AND agent has arrow at time TTHEN utility of wumpus dead at time T+2 is 0.8 • IF at time T agent has goal to be with goldAND agent is not with gold at time TAND agent is in (X,Y) at time TAND gold is in (X,Y) at time TTHEN utility of agent being with gold at time T+1 is 1

  50. Regras de agente otimizador • T,X,Y N,I,J goal(T,has(agent,gold,T+N)   has(agent,gold,T)  loc(agent,X,Y,T) loc(wumpus,X+1,Y)  alive(wumpus,T) loc(wall,X-1,Y)  loc(wall,X-1,Y-1)  loc(wall,X,Y-2)  loc(wall,X+1,Y-2) loc(agent,X,Y,T-I)  loc(agent,X,Y,T-J) has(agent,arrow,T)  utility( alive(wumpus,T+2)) = 0.8 • T,X,Y N goal(T,has(agent,gold,T+N)  has(agent,gold,T)  loc(agent,X,Y,T)  loc(gold,X,Y,T) utility(has(agent,gold,T+1)) = 1

More Related