300 likes | 510 Views
Algoritmos de Minería. “Las ideas sencillas, frecuentemente funcionan bien” Un atributo hace todo (1-Rule) Estructura lógica capturada en un árbol de decisión (ID3) Todos los atributos contribuyen Reglas independientes. Reglas de clasificación. Antecedente consecuente
E N D
Algoritmos de Minería • “Las ideas sencillas, frecuentemente funcionan bien” • Un atributo hace todo (1-Rule) • Estructura lógica capturada en un árbol de decisión (ID3) • Todos los atributos contribuyen • Reglas independientes
Reglas de clasificación Antecedente consecuente • Antecedente: precondiciones, son la serie de pruebas que se realizan sobre los atributos. • Consecuente: conclusión, da la clase o clases que aplican a las instancias cubiertas por la regla
Modelado Estadístico • Todos los atributos contribuyen • Los atributos se consideran: • Iguales en importancia • Independientes • Se toma en cuenta la frecuencia del par atributo-valor por clase • No realista, ¡pero funciona!
Modelado estadístico • Está basado en la regla de probabilidad condicional de Bayes • Si se tiene una hipótesis H, y una evidencia E entonces: • P[H|E] = P[E|H] P[H]/ P[E] • H : Play=Yes • E : Combinación de valores del nuevo día
Naive Bayes P[H|E] = P[E1|H] P[E2|H] P[E3|H] P[E4|H] P[H] P[E] • Los números encontrados se convierten en probabilidades normalizandolos de forma que sumen 1 P[H1|E] = P[E1|H] ... P[En|H] P[H] P[E|H1] +... +P[E|Hm]
Frecuencias Probabilidades Observadas Probabilidad a Priori
Ejemplo • Nuevo día Outlook Temp Humidity Windy play Sunny Cool High True ? Pos. Yes = 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053 Pos. No = 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206 Prob. Yes = 0.0053 = 20.5 % 0.0053 + 0.0206 Prob. No = 0.0206 = 79.5 % 0.0053 + 0.0206
Ejercicio Lentes de Contacto 3 instancias Eliminando
Ej 1) • Pos B = (2/4) (2/4) (4/4) (0)(4/21) = 0 • Pos D = (2/3) (1/3) (0) (0) (3/21) = 0 • Pos N = (3/14)(7/14)(6/14)(11/14)(14/21)= 0.024 Pr = 100% Ej 2) • Pos B = (2/4) (2/4) (0) (1)(4/21) = 0 • Pos D = (0) (2/3) (3/4) (1) (3/21) = 0 • Pos N = (5/14)(7/14)(8/14)(3/14)(14/21) = 0.0145 Pr=100% Ej 3) • Pos B = (0/14).... = 0 • Pos D = (1/3) (1/3) (0) .... = 0 • Pos N = (6/14)(7/14)(6/14)(3/14)(14/21)= 0.0131 Pr = 100%
Problemas • Valores de un atributo que no se presentan • La probabilidad de la clase dado que el atributo tiene el valor ausente sería cero causando que todo el término sea cero. • La corrección es agregar uno a cada valor y compensar. (Estimador de Laplace MF. P) 2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12
Problemas • Valores Faltantes • Nueva instancia: se omite • Conj. Entrenamiento: no cuenta • Atributos numéricos • Se supone que tienen una distribución de probabilidad “Normal” o “Gaussiana” • Se calcula la media x y la desviación estándar
Outlook Temp Hum Windy Play Sunny 66 90 True ?
Ejemplo Pos. Yes = 2/9 x 0.034 x 0.0221 x 3/9 x 9/14 = 0.000036 Pos. No = 3/5 x 0.0279 x 0.038 x 3/5 x 5/14 = 0.000136 Prob. Yes = 0.000036 = 20.9 % 0.000036 + 0.000136 Prob. No = 0.000136 = 79.1 % 0.000036 + 0.000136
Inferencia de Reglas • Algoritmo de cobertura • Considerar cada clase buscando la forma de cubrir todas las instancias en la clase, y al mismo tiempo excluir a las instancias que no pertenecen a la clase. • Es llamado de cobertura porque en cada etapa se identifica una regla que “cubre” la mayoría de las instancias.
Método PRISM • Para cada clase se busca construir las reglas (agregando términos), que cubran todas las instancias de esa clase. • Al agregar un termino, suponga que la nueva regla cubre un total de t instancias, de las cuales p son ejemplos de la clase y t-p están en otras clases (errores de la regla). • Escoger el término que maximiza p/t
b a a b b a a a b y y b a a b a a b b a b b b b b b b a a b b b b x 1.2 Espacio de instancias x > 1.2 ? yes no Regla hasta el momento Y > 2.6 ? b Regla después de añadir un nuevo término yes no b a b b a a b b b a a b a 2.6 b b a b b b 1.2
Método PRISM Para cada clase C Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C Crear la regla R: ? C Hasta que R sea perfecta (o más atributos) haz: Para cada atributo A no mencionado en R, y valor v Considerar agregar A=v en el lado Izquierdo de R Seleccionar A y v que maximicen la precisión p/t (si existen iguales escoger el de mayor p) Agregar A=v a R Eliminar las instancias cubiertas por R de E
Ejemplo: Lentes Si ? Hard • Ag = young2/8 0.25 = pre-presbyopic1/8 0.125 = presbyopic1/8 0.125 • SP = myope3/12 0.25 = hypermetrope1/12 0.083 • AS = no0/12 0 = yes4/12 0.333 • TP = reduced0/12 0 = normal4/12 0.333 Si (AS=Yes) Hard
Si (AS = Yes) & ? Hard • Ag = young2/4 0.5 = pre-presbyopic1/4 0. 25 = presbyopic1/4 0. 25 • SP = myope3/6 0.5 = hypermetrope1/6 0.016 • TP = reduced0/6 0 = normal4/6 0.66 Si (AS=Yes)&(TP=Normal) Hard
Si (AS = Yes) &(TP=Normal) & ? Hard • Ag = young2/2 1 = pre-presbyopic1/2 0.5 = presbyopic1/4 0.5 • SP = myope3/3 1 = hypermetrope1/3 0.33 Si (AS=Yes)&(TP=Normal)&(SP=Myope) Hard
Reglas para RL=Hard • If (AS = Yes) & (TP = Normal) & (SP = Myope) HARD • If (AG = Young) & (AS = Yes) & (TP = Normal) HARD