240 likes | 437 Views
Algoritmos Bayesianos. Karina Figueroa. Preliminares. Aprendizaje cuál es la mejor hipótesis (más probable) dados los dato? Red Bayesiana (RB) Red de creencia Clasificación de una RB Aprendizaje Estructural. Obtener la estructura de la red Aprendizaje Paramétrico
E N D
Algoritmos Bayesianos Karina Figueroa
Preliminares • Aprendizaje • cuál es la mejor hipótesis (más probable) dados los dato? • Red Bayesiana (RB) • Red de creencia • Clasificación de una RB • Aprendizaje Estructural. • Obtener la estructura de la red • Aprendizaje Paramétrico • Dada la estructura, obtener las probabilidades asociadas
Probabilidades conjuntas • P(A, B) Probabilidad de ambas A y B. P(A,B)<P(A|B) • P(A|B) Probabilidad condiciona.La probabilidad de A, dado B. B A
Probabilidades…. • Condicional. • Cuál es la prob.de que la 2ª canica sea roja dado que la 1ª es azul? • P(R2|R1)? • Conjunta • Cuál es la prob.de que la 1ª sea roja y la 2ª azul? • P(R1 y R2)?
Red Bayesiana • Una red bayesiana es un grafo dirigido acíclico que consta de: • Un conjunto de nodos, uno por cada variable aleatoria del “mundo” • Un conjunto de arcos dirigidos que conectan los nodos • Cada nodo tiene una probabilidad condicional asociada • Cada arco X a Y indica una influencia directa de X sobre Y
Ejemplo: red Bayesiana Caries Padre hijo hijo Dolor Hueco
Razones para usar un RB • Diagnóstico • Del efecto a la causa • P(Dolor | Caries) • Predicción • De la causa al efecto • P(Caries | Dolor)
Teorema de Bayes • Regla de Bayes • h es la hipótesis o clase • Ej. Juega tenis o no • D conjunto de valores para los atributos • Ej. temperatura, humedad, etc. Probabilidad de una hipótesis de acuerdo a los datos
Teorema de Bayes • P(h) probabilidad a priori de una de las clases • P(D) probabilidad a priori de que los atributos tengan ciertos valores • P(D|h) probabilidad a priori de que los atributos tengan ciertos valores dado que la instancia pertenece a una clase • P(h|D) es la probabilidad a posteriori de que una instancia pertenezca a cierta clase
Probabilidades…. • P(h). Fácil • Porcentaje de ejemplos de entrenamiento pertenecientes a una clase • P(D). Fácil en valores discretos • Probabilidad de que los atributos tengan un cierto conjunto de valores • P(temp=calor, humedad=alta, viento=poco) • P(D|h). No tan fácil • Muy semejante a la P(D), pero sólo se consideran las que son instancias de h.
B E A J M Ejemplo Probabilidad de influencia directa Variable aleatoria P(B) P(E) P(A | B, E) Prob.cond. dado sus padres P(M | A) P(J | A) Red Bayesiana representa la probabilidad de dependencia/independencia entre las variables aleatorias
Tipos de conexiones Dependientes dado E Edad Edad No. Calzado Edad Estatura Estatura Ingresos Estatura No. Calzado Independientes Independientes
Aplicación de una RB Diagnósticos? Predicciones?
Ejemplo • Predecir la probabilidad de que un cierto paciente esté afectado por una enfermedad • Se realiza un análisis de sangre al paciente con resultado positivo (de acuerdo con el test, el paciente sufre la enfermedad) • Qué hipótesis tiene mayor probabilidad: afectado o no afectado? • Se conocen de antemano los siguientes datos • 0.8% de la población está afectada por la enfermedad • Si una persona está afectada, el test ofrece un resultado positivo en un 98% de los casos (2% tasa de error) • Si una persona no está afectada, el test ofrece resultado negativo en un 97% de los casos (3% tasa de error)
Qué hipótesis tiene mayor probabilidad: afectado o no afectado? • Comparar numeradores… • Conclusión?
Conclusiones • Condiciones • Disponer de un gran número de ejemplos de entrenamiento • Se dipone de algún conocimiento inicial sobre el problema a resolver • Ventajas • Cada nuevo ejemplo puede aumentar o disminuir la estimación de una hipótesis (flexibilidad - incrementalidad) • Conocimiento a priori se puede combinar con datos para determinar la probabilidad de las hipótesis • Da resultados con probabilidades asociadas • Puede clasificar combinando las predicciones de varias hipótesis • Sirve de estandar de comparación de otros algoritmos
Problemas • En una RB con 37 nodos se necesitan calcular: 137,438,953,472 valores
Teorema de Bayes • Puede ser muy complicado calcular las probabilidades dependientes • Una solución propuesta, y muy común en la práctica, es considerar probabilidades independientes: Naïve Bayes • P(A,B) = P(A) P(B) • Para sucesos independientes