200 likes | 394 Views
Aprendizaje a partir de observaciones. Retroali- mentación. Modelo general de agentes que aprenden. Estandar de desempeño. A M B I E N T E. Crítico. Sensores. Retroali- mentación. Cambios. Elemento de Aprendizaje. Elemento de desempeño. Conocim. Objetivos de aprendizaje.
E N D
Retroali- mentación Modelo general de agentes que aprenden Estandar de desempeño A M B I E N T E Crítico Sensores Retroali- mentación Cambios Elemento de Aprendizaje Elemento de desempeño Conocim. Objetivos de aprendizaje Generador de Problemas Efectores Agente
Componentes conceptuales del modelo • Elemento de aprendizaje: responsable de realizar mejo-ras. • Elemento de desempeño: responsable de seleccionar ac-ciones externas. • Crítico: diseñado para decirle al elemento de aprendiza-je cuan bien se desempeña el agente. Usa un estandar de desempeño fijo (conceptualmente fuera del agente). • Generador de problemas: responsable de sugerir accio-nes que llevarán a experiencias nuevas e informativas.
Factores que afectan el diseño del elemento de aprendizaje • Qué componentes del elemento de desempeño van a ser mejorados • Qué representación se usa para esos componentes • Qué retroalimentación hay disponible • Qué información previa hay disponible
Un mapeo directo de condiciones en el estado actual, a acciones. • Un medio para inferir propiedades relevantes del mundo a partir de la secuencia de percepciones. • Información acerca del modo en que evoluciona el mundo. • Información acerca de los resultados de posibles acciones que puede realizar el agente. • Información de utilidad indicando cuan deseables son los estados del mundo. • Información del valor de cada acción indicando cuan deseables son las acciones particulares en estados particulares. • Objetivos que describen clases de estados cuyos desenvolvimientos maximizan la utilidad del agente. Componentes del elemento de desempeño Cada uno de los siete componentes del elemento de desempeño puede ser descripto matemáticamente como una función. El punto clave es que todo el aprendizaje puede verse como aprender la representación de una función.
Crítico, Generador de problemas Crítico: diseñado para informar al elemento de aprendizaje cuan bien está haciendo las cosas el agente. Usa un estándar de desempeño fijo. Generador de problemas: responsable de sugerir acciones que llevarán a nuevas experiencias informativas. Si el agente explora un poco, y realiza algunas acciones tal vez subóptimas en el corto plazo, puede descubrir acciones mucho mejores en el largo plazo.
Aprendizaje inductivo Un ejemplo es un par (x, f(x)), donde x es la entrada y f(x) es la salida de la función aplicada a x. Inducción. Dada una colección de ejemplos de f, su tarea es devolver una función h, la hipótesis, que sea aproximadamente igual a f. Cualquier preferencia por una hipótesis sobre otra, más allá de la mera consistencia con los ejemplos, se denomina ´bias´(desvío). Todos los algoritmos exhiben algún grado de desvío dado que casi siempre hay un gran número de hipótesis consistentes posibles. En el aprendizaje hay una solución de compromiso fundamental en-tre expresividad -¿es la función deseada representable en el lenguaje de representación?- y eficiencia -¿será el problema de aprendizaje tratable para una elección dada del lenguaje de representación?-
Aprendizaje por árboles de decisión La inducción por árbol de decisión es una de las más sim-ples y más exitosas formas de algoritmo de aprendizaje. Arboles de decisión como elemento de desempeño Un árbol de decisión toma como entrada un objeto o situa-ción descripto por un conjunto de propiedades, y da como salida una ´decisión´ si/no. Cada nodo interno en el árbol corresponde a una prueba del valor de una de las propiedades, y las ramasdesde el nodo están etiquetadas con los valores posibles del test. Cada nodo hoja en el árbol especifica el valor Booleano que se retornará si esa hoja es alcanzada.
Ejemplo: Arbol de decisión para decidir si esperar por una mesa en un restaurant ¿Gente en el Restaurante? Ning. Lleno Algunos No Si ¿Espera estimada? >60 30 - 60 10 - 30 0 - 10 No ¿Restaurante alternativo? ¿Hambriento? Si Si No Si No ¿Reservaciones? Vi/Sa Si ¿Restaurante alternativo? No Si Si Si No No ¿Bar? Si No Si Si ¿Llueve? No Si Si No No Si No Si
Expresividad de los árboles de decisión Los árboles de decisión no pueden representar nin-gún conjunto, dado que son implícitamente limita-dos a hablar de un solo objeto. El lenguaje del árbol es esencialmente proposicional, siendo cada prueba de atributo una proposición. No hay ningún tipo de representación que sea efi-ciente para todos los tipos de función.
Inducción de árboles de decisión a partir de ejemplos Un ejemplo es descripto por los valores de los atributos y el valor del predicado objetivo. Navaja de Ockham, principio general de aprendizaje induc-tivo: La hipótesis más probable es la más simple que sea consistente con todas las observaciones. Desafortunadamente, encontrar el árbol de decisión más pe-queño es un problema intratable, pero con algunas heurísti-cas simples, podemos hacer un buen trabajo encontrando uno pequeño. La idea básica detrás del algoritmo de aprendizaje por medio del árbol de decisión es probar el atributo más im-portante primero (el atributo que hace la mayor diferencia en la clasificación de un ejemplo). Después de que la prueba del primer atributo divide los ejemplos, ca-da resultado es un problema de aprendizaje por árbol de decisión en sí mismo, con menos ejemplos y un atributo menos.
Atributos Objetivo Esperará Ejemplos Alt Bar Vie Ham Gente Precio Llueve Reser Tipo Espera X1 Si No No Si Alg $$$ No Si Frnc 0-10 Si X2 Si No No Si Llen $ No No Thai 30-60 No X3 No Si No No Alg $ No No Brgr 0-10 Si X4 Si No Si Si Llen $ No No Thai 10-30 Si X5 Si No Si No Llen $$$ No Si Frnc >60 No X6 No Si No Si Alg $$ Si Si Ital 0-10 Si X7 No Si No No Nng $ Si No Brgr 0-10 No X8 No No No Si Alg $$ Si Si Thai 0-10 Si X9 No Si Si No Llen $ Si No Brgr >60 No X10 Si Si Si Si Llen $$$ No Si Ital 10-30 No X11 No No No No Nng $ No No Thai 0-10 No X12 Si Si Si Si Llen $ No No Brgr 30-60 Si
Casos a considerar • Si hay algunos ejemplos positivos o negativos, elegir el mejor atributo para dividirlos. • Si todos los ejemplos que restan son positivos ( o todos negativos), hemos terminado: podemos contestar Si o No. • Si no quedan ejemplos, significa que no se ha observado tal tipo de ejemplo, y devolvemos un valor por omisión calculado a partir de la clasificación de mayoría en el padre del nodo. • Si no quedan atributos, pero sí ejemplos positivos y negativos, tenemos un problema. Significa que estos ejemplos tienen exactamente la misma descrip-ción, pero clasificaciones diferentes. Esto ocurre cuando algunos de estos da-tos son incorrectos; decimos que hay ruido en la información. También suce-de cuando los atributos no dan suficiente información para describir comple-tamente la situación, o cuando el dominio es verdaderamente no determinís-tico. Una forma simple de salir de este problema es usar el voto de mayoría.
Clientes en el Restaurante Ning. Lleno Algunos No Si Tiene hambre No Si Tipo No Franc Thai Burger Italiano Si No Vie/Sáb Si Si No No Si Arbol resultante El árbol es diferente del árbol original. El algoritmo de aprendizaje ve los ejemplos, no la función correcta, y de hecho, su hipótesis no solo concuerda con todos los ejemplos, sino que es considerablemente más simple que el árbol original.
Evaluación del rendimiento del algoritmo de apredizaje • Un algoritmo de aprendizaje es bueno si produce una hipótesis que predice bien la clasificación de ejemplos aún no vistos. • Una metodología posible para evaluar las predicciones es la sig.: • Recolectar un gran conjunto de ejemplos. • Dividirlo en dos conjuntos ´disjuntos´: el conjunto de entrena-miento y el conjunto de prueba. • Usar el algoritmo de aprendizaje con el conjunto de entrena-miento como ejemplos para generar una hipótesis H. • Medir el porcentaje de ejemplos, en el conjunto de prueba, que son correctamente clasificados por H. • Repetir los pasos 1 a 4 para diferentes tamaños de conjuntos de entrenamiento y diferentes conj.de entrenam de cada tamaño, se-leccionados al azar. (ver fig. 18.9 Curva de aprendizaje)
Dos enfoques que encuentran hipótesis lógicamente consistentes son: • Búsqueda según la mejor hipótesis actual. • Búsqueda con mínimo compromiso. Hipótesis lógicamente consistente Búsqueda según la mejor hipótesis actual mantiene una hipótesis, y la ajusta a medida que llegan nuevos ejemplos, para mantener la con-sistencia. (a) Hipótesis consistente. (b) falso negativo. (c) La hipótesis es generalizada. (d) falso positivo. (e) La hipótesis es especializada. • - - - • - • - • (-) - • - - (d) • - - - • - • - • - - • - - (e) • - - - • - • - • (+) • - • - - (b) • - - - • - • - • + • - • - - (c) • - - - • - • - • - • - - (a) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Hipótesis lógicamente consistente (continuación) Búsqueda con mínimo compromiso mantiene todas las hipótesis consistentes con toda la información acumulada hasta el momento. El espacio de hipótesis original se puede ver como una oración disyunti-va H1 H2 H3 H4 ... Hn A medida que encontramos que varias hipótesis son inconsistentes con los ejemplos, la disyunción se reduce. Una propiedad importante de este enfoque es que es incremental: uno nunca debe volver y reexami-nar los ejemplos anteriores. Todas la hipótesis que quedan son consis-tentes con ellos. Tenemos un orden en el espacio de hipótesis, generalización/espe-cialización. Este es un orden parcial, cada límite no será un punto sino un conjunto de hipótesis llamado conjunto límite. Podemos representar el espacio de versión completo usando sólo dos espacios límite: Límite más general (conj-G) y Límite más específico (conj-E), todo lo que esté entre ellos será consistente con los ejemplos.
Hipótesis lógicamente consistente (continuación) El espacio de versión inicial (antes de haber visto algún ejemplo) represente todas las hipótesis posibles: conj-G =V (la hipótesis que contiene todo),y conj-E = F (la hipótesis cuya extensión está vacía). Extensión de los miembros de G y E. Ningún ejemplo conocido se encuentra entre los conjuntos G yE. • - - - - - - - - • - - - - - • - - G1 - - - - • - G2 - • - - - • - - - - - + + + + + + + + +
Uso de la Teoría de la Información Un árbol de decisión examina el conjunto de datos, y usa teoría de la información para determinar cuál es el atributo que contiene la mayor información sobre la cual basar una decisión. Teoría de la Información En general, si las posibles respuestas vi tienen probabilidad P(vi), entonces la cantidad de información I de la respuesta real es obtenida de la siguiente manera: n I(P(v1), P(v2),...,P(vn)) = -P(vi)log2P(vi) i=1 esto es el contenido de información promedio de los distintos eventos (el término -log2P) multiplicado por la probabilidad de cada evento.
En el caso de árboles de decisión se debe hallar la respuesta a la pre-gunta ¿para un ejemplo dado, cuál es la clasificación correcta? Una estimación de las probabilidades de una respuesta posible, antes de haber probado algún atributo, está dada por la proporción de ejemplos positivos y negativos en el conjunto de entrenamiento: I(p/(p+n), n/(p+n))= - (p/(p+n)).log2(p/(p+n)) - (n/(p+n)). log2(n/(p+n)) (p/(p+n)) probabilidad de que ocurra un caso positivo -log2(p/(p+n)) contenido de información de ese evento En promedio, luego de probar un atributo A, todavía necesitaremos para v valores distintos de A: v Resto(A) = ((pi + ni)/(p+n)).I(pi/(pi + ni), ni/(pi + ni)) i=1 bits de información, donde i va desde 1 hasta v. Ganancia(A) = I(p/(p + n), n/(p + n)) – Resto(A) Siendo I(p/(p + n), n/(p + n)) el requerimiento original de información. Uso de la Teoría de la Información (continuación)