1 / 62

Clasificación Supervisada

Clasificación Supervisada. Santiago González Tortosa. Contenidos. Introducción Clasificación Supervisada Algoritmos de clasificación supervisada KNN Naive Bayes ID3 Métodos de Validación Resustitución Hold-out N fold cross-validation Leave one out 0.632 Bootstrap.

hana
Download Presentation

Clasificación Supervisada

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Clasificación Supervisada Santiago González Tortosa

  2. Contenidos • Introducción • Clasificación Supervisada • Algoritmos de clasificación supervisada • KNN • NaiveBayes • ID3 • Métodos de Validación • Resustitución • Hold-out • N foldcross-validation • Leaveoneout • 0.632 Bootstrap • Medidas de Validación • Brier Score • Log Likelihood • AURC • HosmerLemeshow • Mecanismos filter • Mecanismos wrapper • Referencias Clasificación Supervisada

  3. Introducción Clasificación Supervisada • Clasificación • El problema general se basa en clasificar N individuos (instancias) procedentes de una muestra, en función de una serie de n variables (atributos) (X1, X2,...,Xn). • Tipos de variables o atributos: • Discretos: son aquellos para los que se dan, de modo inherente, separaciones entre valores observables sucesivos. Ejemplos: medios de transporte, tipologías de enfermedad, etc. • Continuos: Su propiedad nos indica que 2 cualesquiera valores observables, hay otro valor observable. Toma valores a lo largo de un espacio continuo. Ejemplos: longitudes, pesos, etc.

  4. Introducción variable discreta variables o atributos instancias o individuos variable continua Clasificación Supervisada Ejemplo

  5. Introducción Clasificación Supervisada • Discretización de variables continuas • Divide el rango de atributos continuos en Intervalos • Almacena solo las etiquetas de los intervalos • Importante para reglas de asociación y clasificación, algunos algoritmos solo aceptan datos discretos.

  6. Introducción Clasificación Supervisada Discretización por igual amplitud

  7. Introducción Clasificación Supervisada Discretización por igual frecuencia

  8. Introducción Clasificación Supervisada • Dos criterios de clasificación: • Clasificación supervisada • Clasificación no supervisada (siguiente tema)

  9. Introducción Clasificación Supervisada • Clasificación Supervisada • Se parte de un conjunto de M clases conocido a priori. • Estas clases deben caracterizarse en función del conjunto de variables (atributos) mediante la medición de las mismas en individuos. • Cada individuo debe pertenecer, al menos, a una clase. • A partir de un conjunto de individuos con clase asignada (conjunto de entrenamiento) se debe estimar las clases de los individuos de otro conjunto (conjunto de test)

  10. Introducción Clasificación Supervisada Clasificación Supervisada

  11. Introducción Clasificación Supervisada • Clasificación Supervisada • Tasa de acierto: (a+d)/Suma • Tasa de error: (c+b)/Suma • Verdaderos positivos (sensibilidad): a/a+c • Verdaderos negativos (especificidad): d/b+d • Falsos positivos: b/a+c • Falsos negativos: c/b+d

  12. Introducción Clasificación Supervisada • Ejemplo • Tasa de acierto: 4/6 • Tasa de error: 2/6 • Verdaderos pos: 2/3 • Verdaderos neg: 2/3 • Falsos pos: 1/3 • Falsos neg:1/3

  13. Contenidos • Introducción • Clasificación Supervisada • Algoritmos de clasificación supervisada • KNN • NaiveBayes • ID3 • Métodos de Validación • Resustitución • Hold-out • N foldcross-validation • Leaveoneout • 0.632 Bootstrap • Medidas de Validación • Brier Score • Log Likelihood • AURC • HosmerLemeshow • Mecanismos filter • Mecanismos wrapper • Referencias Clasificación Supervisada

  14. Algoritmos de clasificación supervisada Clasificación Supervisada

  15. Algoritmos de clasificación supervisada Clasificación Supervisada • Algoritmos lazy • El aprendizaje del conjunto de aprendizaje se realiza a la vez que se estima las clases del conjunto de test. • Algoritmos probabilísticos • Uso de la probabilidad y estadística para el aprendizaje y estimación de clases. • Nuevo concepto: probabilidad de que un individuo pertenezca a una clase u otra. • Arboles de decisión • Representación del conocimiento y relación de los atributos y la clase usando arboles (binarios o no). • Redes neuronales • Uso del concepto de neurona artificial (simula la neurona del cerebro) • Se entrena una red de neuronas interconectadas con los individuos para cada clase. • Con esto, al presentarle un individuo nuevo en sus entradas, la red dará como resultado la clase a la cual pertenece.

  16. Algoritmos de clasificación supervisada Clasificación Supervisada • Algoritmos presentados en clase: • Algoritmo lazy: KNN (K Nearest Neighbour) • Algoritmo probabilístico: Naive Bayes • Árbol de decisión: ID3 (Induction Decision Trees) • Objetivo común: • Obtener y estimar las clases del conjunto de test de individuos • Obtener la menor tasa de error en las clases estimadas

  17. KNN Clasificación Supervisada • Idea: basarse en los K individuos “más cercanos” al individuo al que se desea obtener su clase. • Es necesario calcular la distancia entre individuos para saber cuales son más cercanos (euclidea, manhattan, etc.) • Variables iniciales necesarias: • Numero de vecinos: K • Calculo de distancia: d(x,y) • Conjunto de datos de aprendizaje • Individuo del conjunto de test

  18. KNN Clasificación Supervisada • Distancia euclidea • Distancia Manhattan • Muy parecida a la distancia euclidea • Diferencia: eliminando de la ecuación la raiz cuadrada y sustituyendo el cuadrado de cada valor (pi-qi) por su valor absoluto.

  19. KNN Clasificación Supervisada Ejemplo representado con K = 3, dos atributos y distancia euclidea

  20. KNN Clasificación Supervisada Pseudocódigo del algoritmo

  21. NaiveBayes Clasificación Supervisada • Teorema de Bayes • Siendo D los datos y H la hipótesis, ambos discretos: • p(H | I ) se denomina probabilidad prior y representa el nivel de confianza en la hipótesis sin utilizar los datos • p(D | H, I ) se denomina verosimilitud y representa lo verosímiles que son los datos si la hipótesis es cierta • La verosimilitud sirve para transformar la probabilidad prior en posterior: • p(H | D, I ) se denomina probabilidad posterior y representa el nivel de confianza en la hipótesis a la luz de los datos • p(D| I ) se denomina evidencia y en muchas aplicaciones solo cumple una función de normalización, pues no depende de H

  22. NaiveBayes Clasificación Supervisada • Ejemplo: • Un taxi golpea a una persona de noche y huye. En la ciudad operan don compañías de taxis: la verde y la azul. El 85% de los taxis de la ciudad son verdes y el 15% restante, azules. Una testigo identifica el taxi como azul. El jurado estima la fiabilidad de la testigo en un 80%. ¿Cuál es la probabilidad de que el taxi del accidente fuera azul?

  23. NaiveBayes Clasificación Supervisada Las probabilidades a priori sin disponer del testimonio de la testigo son: P(H=verde) = 0.85 P(H=azul) = 0.15 Buscamos la probabilidad a posteriori de que la compañía sea azul, conociendo la identificación de la testigo: ¿¿P(H=verde|D=azul)??

  24. NaiveBayes Clasificación Supervisada • La verosimilitud es fácil de calcular: P(D = azul | H = verde) = 0.20 P(D = azul | H = azul) = 0.80 • El dato de que disponemos es que la testigo afirma que la compañía responsable es la azul. • Este dato es más verosímil cuando aceptamos la hipótesis de que la compañía azul es responsable (80% frente a 20%). • Si nuestro criterio fuera optimizar la verosimilitud, concluiríamos que la compañía responsable es la azul.

  25. NaiveBayes Clasificación Supervisada • Concluimos: P(H=verde|D=azul) = P(D=azul|H=verde) x P(H=verde) / P(D=azul) P(D=azul) = P(D=azul|H=azul) x P(H=azul) + P(D=azul|H=verde)x P(H=verde) P(D=azul) = 0.2 x 0.85 + 0.8 x 0.15 = 0.17 + 0.12 = 0.29 P(H=verde|D=azul) = 0.2 x 0.85 / 0.29 = 0.59

  26. NaiveBayes Clasificación Supervisada El método conocido como Naive Bayes aproxima el valor de la verosimilitud suponiendo que los atributos son independientes: La aproximación es distinta, puesto que no se fija la hipótesis:

  27. NaiveBayes Clasificación Supervisada Cuando las hipótesis son varias:

  28. ID3 Clasificación Supervisada • Objetivo: Construir un árbol de decisión que explique cada instancia de la secuencia de entrada de la manera más compacta posible a partir de una tabla de inducción. • Crear un árbol de decisión como un método para aproximar una función objetivo de valores discretos, que es resistente al ruido en los datos y que es capaz de hallar o aprender de una disyunción de expresiones. • El resultado puede expresarse como un conjunto de reglas Si-entonces. • Intenta encontrar el árbol más sencillo que separa mejor los ejemplos. • Es recursivo. • Utiliza la ganancia para decidir que atributo es mejor en cada iteración del algoritmo.

  29. Clasificación Supervisada

  30. ID3 Clasificación Supervisada El atributo mas discriminativo es aquel que tiene más ganancia: G (C,Attr1) = E (C) - ∑ P(C|Attr1=Vi) * E (Attr1) donde E (Attr1) = - ∑ P(Attr1=Vi ) * log2(P(Attr1=Vi )) = = - ∑ P(Attr1=Vi ) * ln(P(Attr1=Vi )) / ln(2)

  31. ID3 Clasificación Supervisada Ejemplo

  32. ID3 Clasificación Supervisada Ganancia(AdministrarTratamiento,Gota) = G(AT,G) G(AT,G) = E(AT) – P(G=Si) x E(G=Si) – P(G=No) x E(G=No) E(G=Si) = - P(AT=Si|G=Si) * log2(P(AT=Si|G=Si)) - P(AT=No|G=Si) * log2(P(AT=No|G=Si)) = = - 3/7 * log2 (3/7) – 4/7 * log2 (4/7) = 0.985 E(G=No) = - P(AT=Si|G=No) * log2(P(AT=Si|G=No)) - P(AT=No|G=No) * log2(P(AT=No|G=No)) = - 6/7 * log2 (6/7) – 1/7 * log2 (1/7) = 0.592 E(AT)=- P(AT=Si)* log2(P(AT=Si)) - P(AT=No)* log2(P(AT=No)) = = - 9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940 P(AT,G) = 0.94 – P(G=Si) x 0.985 – P(G=No) x 0.592 = = 0.94 – (7/14) x 0.985 – (7/14) x 0.592 = 0.151

  33. ID3 Clasificación Supervisada Que atributo tiene mayor ganancia??

  34. ID3 Clasificación Supervisada Una vez seleccionado el atributo “Presión Arterial”:

  35. ID3 Clasificación Supervisada Después de varias iteraciones, el árbol resultante sería:

  36. Contenidos • Introducción • Clasificación Supervisada • Algoritmos de clasificación supervisada • KNN • NaiveBayes • ID3 • Métodos de Validación • Resustitución • Hold-out • N foldcross-validation • Leaveoneout • 0.632 Bootstrap • Medidas de Validación • Brier Score • Log Likelihood • AURC • HosmerLemeshow • Mecanismos filter • Mecanismos wrapper • Referencias Clasificación Supervisada

  37. Métodos de Validación Clasificación Supervisada • Para poder validar los resultados obtenidos en el aprendizaje de algoritmos de clasificación supervisada, es necesario disponer de mecanismos y medidas de validación. • Métodos de validación: • Resustitución • Hold-out • Leave one out • N fold cross-validation • 0.632 Bootstrap

  38. Métodos de Validación Clasificación Supervisada Resustitución

  39. Métodos de Validación Clasificación Supervisada Hold-out

  40. Métodos de Validación Clasificación Supervisada N-fold cross validation

  41. Métodos de Validación Clasificación Supervisada • Leave-one-out • N-cross fold validation cuando N = dim(Datos)

  42. Métodos de Validación Clasificación Supervisada 0.632 Bootstrap

  43. Contenidos • Introducción • Clasificación Supervisada • Algoritmos de clasificación supervisada • KNN • NaiveBayes • ID3 • Métodos de Validación • Resustitución • Hold-out • N foldcross-validation • Leaveoneout • 0.632 Bootstrap • Medidas de Validación • Brier Score • Log Likelihood • AURC • HosmerLemeshow • Mecanismos filter • Mecanismos wrapper • Referencias Clasificación Supervisada

  44. Medidas de Validación Clasificación Supervisada • Las medidas de validación nos cuantifica como de bueno es el algoritmo de clasificación frente a los datos, utilizando un método de validación. • Calibración y Discriminación • Medidas: • PBC o Accuracy • BrierScore • Log Likelihood • AURC • HosmerLemeshow

  45. Medidas de Validación Clasificación Supervisada • Calibración • Estima la distancia entre los valores observados (reales) y los predichos. Valores continuos [0,∞) • Discriminación • Estima la probabilidad de clasificación. Valores continuos [0,1] • En una clasificación, se desea tener la menor calibración posible y la mayor discriminación posible

  46. Medidas de Validación Clasificación Supervisada • Ejemplo de Calibración y Discriminación: • Clase real: 1 • Clase estimada: 0.6 • Discriminación: 1 (maxima) • suponiendo que Si Cestimada > 0.5 entonces Cestimada = 1 • Calibración: 0.4 (1-0.6)

  47. Medidas de Validación Clasificación Supervisada • Brier Score • Medida de calibración para un clasificador que asigne, para cada patrón, probabilidades a posteriori a cada valor de la clase. • Cuanto menor valor de Brier, mejor clasificador (más seguro en predicciones)

  48. Medidas de Validación Clasificación Supervisada • Log Likelihood • Función de Máxima verosimilitud (negativa) • Se utiliza para estimar coeficientes de un modelo de “regresión logística” • Calcula la calibración del clasificador. • Tiene cierta relación con la discriminación. • Cuanto mayor log likehood, menor calibración.

  49. Medidas de Validación TPR: Ciertos positivos FPR: Falsos positivos Clasificación Supervisada • AURC (Area Under ROC Curve) • Calcula discriminación del clasificador • Comportamiento de clasificación independientemente del error. • Cuanto mayor AURC, mejor discrimina el clasificador

  50. Medidas de Validación Clasificación Supervisada Ejemplo AURC

More Related