1 / 78

Capítulo 2 Aproximación Paramétrica

Capítulo 2 Aproximación Paramétrica. Contenidos. Introducción La función de densidad de probabilidad normal Funciones discriminantes para la f.d.p normal Diseño de clasificadores lineales y cuadráticos El problema de la estimación de los parámetros Detección de puntos dudosos.

penda
Download Presentation

Capítulo 2 Aproximación Paramétrica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Capítulo 2 Aproximación Paramétrica Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  2. Contenidos • Introducción • La función de densidad de probabilidad normal • Funciones discriminantes para la f.d.p normal • Diseño de clasificadores lineales y cuadráticos • El problema de la estimación de los parámetros • Detección de puntos dudosos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  3. 1. Introducción • Objeto de estudio: Clasificación supervisada paramétrica Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  4. 1. Introducción • Supervisado: El aprendizaje supervisado requiere disponer de un conjunto de prototipos (conjunto de entrenamiento) a partir del cual construiremos y evaluaremos un clasificador. • Paramétrico: Se supone un completo conocimiento a priori de la estructura estadística de las clases. Podemos modelar las clases mediante funciones de densidad de probabilidad conocidas. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  5. 1. Introducción • Clasificador de Bayes: • La función de densidad normal (gaussiana) es la más tratada en la literatura. Propiedades: 1. Parámetros que especifican la distribución. La f.d.p. Normal queda completamente especificada por pocos parámetros. 2. Incorrelación e independencia. Dado un conjunto de patrones que siguen una distribución normal, si las variables asociadas están incorreladas, entonces son independientes. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  6. 1. Introducción 1. Introducción 3. Justificación física. Aproximación razonable para la mayor parte de los datos tomados de la naturaleza. La función de densidad normal es acertada en situaciones en las que un conjunto de patrones de una determinada clase toman valores en un rango contínuo y alrededor de un patrón promedio. Considera que los patrones de clases diferentes tienen distintos valores pero los valores de los patrones de una clase son lo más parecidos posibles. 4. Densidades marginales y condicionales. Las densidades marginales y condicionadas de una distribución normal son también normales. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  7. 1. Introducción 5. Invarianza frente a transformaciones lineales. La distribución que sigue cualquier combinación lineal de una variable aleatoria normal es también normal (con diferentes parámetros). Siempre puede encontrarse, para una distribución normal, un nuevo conjunto de ejes tal que las nuevas variables son independientes en este nuevo sistema. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  8. 2. Función de densidad de prob. normal • 2.1 La f.d.p. normal unidimensional. • Forma funcional. • donde • es la media de la clase i • es la varianza de la clase i Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  9. 2. Función de densidad de prob. normal Fdp normales de media 0 y varianzas: 0.15, 1 y 2 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  10. 2. Función de densidad de prob. normal • Una propiedad interesante y útil: • El área bajo la curva de la función de densidad de probabilidad normal puede calcularse de forma precisa según el número de desviaciones típicas. • El 68.3% de las observaciones están en el intervalo [- ;  + ] • El 95.4% de las observaciones están en el intervalo [ - 2;  + 2] • El 99.7% de las observaciones están en el intervalo [- 3;  + 3] Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  11. 2. Función de densidad de prob. normal Áreas bajo la curva de la fdp gaussiana en función del número de desviaciones típicas Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  12. 2. Función de densidad de prob. normal • Parámetros que especifican la distribución • - La fdp normal está completamente especificada por los parámetros i y i2 • - En la práctica, i y i2 son desconocidos y deben estimarse a partir de los puntos de entrenamiento • Estimadores no sesgados de i y i2 : • donde: • Ni es el número de prototipos de la clase i. • xj es el j-ésimo prototipo de la clase i. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  13. 2. Función de densidad de prob. normal • 2.2 La f.d.p. normal multidimensional. • Forma funcional. • i : matriz de covarianza de la clase i • | i | : determinante de i • i-1 : matriz inversa de i • (X - i)T : vector traspuesto de (X- i) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  14. 2. Función de densidad de prob. normal Representación de una fdp normal dibimensional Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  15. 2. Función de densidad de prob. normal • Parámetros que especifican la distribución • - La fdp normal multivariante está completamente especificada por los parámetros i y i • - En la práctica, estos parámetros son desconocidos y deben estimarse a partir de prototipos. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  16. 2. Función de densidad de prob. normal Estimadores no sesgados de i y de i : donde: Ni es el número de prototipos de la clase i. Xl es el l-ésimo prototipo de la clase. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  17. 2. Función de densidad de prob. normal - Estimación alternativa (elemento a elemento): para j, k = 1, 2, ..., d donde: * Xjl : componente j-ésima del prot. l-ésimo de wi * ij : componente j-ésima del vector medio de wi Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  18. 2. Función de densidad de prob. normal • Ejemplo. • Disponemos de 5 prototipos de la clase wi: • Estimación de i. • Estimación de i (completa): • 1. Vectores (X l - ): Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  19. 2. Función de densidad de prob. normal Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  20. 2. Función de densidad de prob. normal 2. Matrices (X l - )(X l - )T: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  21. 2. Función de densidad de prob. normal 3. Finalmente, Parámetros estimados para esta clase: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  22. 2. Función de densidad de prob. normal Estimación de i (elemento a elemento) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  23. 2. Función de densidad de prob. normal • Propiedades de i • 1. i es simétrica. Como ijk = ikj , hay que calcular únicamente d (d + 1)/2 componentes. • 2. i es (semi)definida positiva (|i|>0) • 3. ijk es la covarianza de la clase i entre las variables j y k (j,k = 1,2,...,d j k) y se interpreta como la relación o dependencia entre estas dos variables. • 4. Los valores de la diagonal de la matriz de covarianza son las varianzas de las variables individuales, esto es, ijj = 2ij • 5. Si ijk = 0, las variables j y k son estadísticamente independientes. Si no, existe correlación entre ellas. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  24. 2. Función de densidad de prob. normal A) Vars. independientes B) Vars. correladas Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  25. 2. Función de densidad de prob. normal • 2.2 La f.d.p. normal multidimensional. • 2.2.1 La distancia de Mahalanobis • Los puntos para puntos para los que el valor de la fdp es constante están situados en hiperelipsoides en las que la forma cuadrática (X- )T -1(X- ) es constante: distancia de Mahalanobis (al cuadrado) de X a . Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  26. 2. Función de densidad de prob. normal A) Dens. de prob B) Diagrama de dispersión Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  27. 2. Función de densidad de prob. normal • Las direcciones de los ejes principales de estos hiperelipsoides están determinadas por los autovectores de  y sus longitudes por los autovalores correspondientes. • Al estar ponderada por , esta métrica considera la distinta dispersión de las variables en el espacio. • Importante: con una métrica de este tipo, el concepto de distancia es muy distinto al concepto de distancia en nuestro mundo Euclídeo Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  28. 2. Función de densidad de prob. normal Dos distribuciones normales con igual media y diferentes matrices de covarianza Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  29. 2. Función de densidad de prob. normal 2.2 La f.d.p. normal multidimensional. 2.2.2 Correlación de variables A) Alta covarianza B) Baja covarianza. En ambos casos, 21 =5.7 y 22=7.1 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  30. 2. Función de densidad de prob. normal • Coeficiente de correlación. • Medida normalizada del grado de relación entre las variables, independiente de las unidades de medida. • Este coeficiente verifica que | ij |  1 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  31. 2. Función de densidad de prob. normal • Relación entre covarianzas y correlaciones:  =  R  Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  32. 2. Función de densidad de prob. normal - ij= , entonces ij = j i ij . Además, como ij = ji, entonces ij = = = ji - Como ii = = = 1. ii = i i ii = i2 porque ij = 1 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  33. 2. Función de densidad de prob. normal • Interpretación del factor de correlación • Si proyectamos la nube de puntos sobre un plano definido por los ejes (abscisas) y (ordenadas): • - Superficie: determinada por  (desviaciones típicas). • - Forma: determinado por R (correlaciones). • Dado que | ij| 1 (-1  ij 1) • 1. Si ij = 0, la correlación es nula (son independientes): los puntos se disponen aleatoriamente en un círculo (1 = 2) o en una elipse (1  2) cuyo centro es (i,j). Una correlación con valor 0 indica que no existe relación lineal en absoluto. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  34. 2. Función de densidad de prob. normal Ejemplos de correlación nula Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  35. 2. Función de densidad de prob. normal 2. Si 0 < ij < 1 los puntos se disponen en una elipse centrada en (i,j). El eje principal tiene una pendiente positiva y una forma más o menos circular dependiendo de si ij está más o menos cercano a 0. Ejemplos de correlación positiva Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  36. 2. Función de densidad de prob. normal 3. Si ij = 1, la correlación el lineal y perfecta ( Xj depende linealmente de Xi): los puntos se disponen a lo largo de una línea recta con pendiente positiva Ejemplos de correlación lineal Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  37. 2. Función de densidad de prob. normal 4. Para -1 < ij < 0, similar a caso 2 y para ij = -1, similar a caso 3 (ahora con pendiente negativa). La orientación y longitud de los ejes de las elipses que caracterizan las distribuciones se deducen de los autovectores y autovalores de la matriz de covarianza. Ejemplos de correlación negativa Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  38. 3. Funciones discriminantes para la f.d.p normal. • El clasificador de mínimo error (Bayes) puede expresarse en términos de funciones discriminantes: • Forma general delas funciones discriminantes asumiendo f.d.p. normales Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  39. 3. Funciones discriminantes para la f.d.p normal. • Casos particulares: • - Caso 1. i = 2I (Clasif. Lineal) • - Caso 2. i =  (Clasif. Lineal) • - Caso 3. i arbitrarias (Clasif. Cuadrático) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  40. 3. Funciones discriminantes para la f.d.p normal. • 3.1 Clasificadores lineales • 3.1.1 Caso 1: i = 2I • Variables estadísticamente independientes (incorreladas) y todas tienen la misma varianza, 2. • Las matrices de covarianza son diagonales con valor 2 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  41. 3. Funciones discriminantes para la f.d.p normal. Clasificador lineal con i = 2I Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  42. 3. Funciones discriminantes para la f.d.p normal. • Simplificaciones de las funciones discriminantes. • - En este caso • Sustituyendo en (10): • - Considerando que ||  || es la norma Euclídea Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  43. 3. Funciones discriminantes para la f.d.p normal. - Si i son iguales, no son significativas para : Alternativamente, Regla de mínima distancia Euclídea. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  44. 3. Funciones discriminantes para la f.d.p normal. • Funciones discriminantes lineales: • Superficies de decisión: • donde: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  45. 3. Funciones discriminantes para la f.d.p normal. Front. de dec. Para un clasificador de mín. distancia Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  46. 3. Funciones discriminantes para la f.d.p normal. • 3.1.2 Caso 2: i =  • Las variables no son estadísticamente independientes (cor- reladas) y las varianzas individuales son diferentes. • Geométricamente: patrones distribuidos en agrupamientos hiperelipsoidales de igual tamaño y forma. Cada agrupamiento centrado en su media correspondiente, i Clasif. Lineal con i= (120,12) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  47. 3. Funciones discriminantes para la f.d.p normal. Clasif. Lineal con i= (12=0,12) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  48. 3. Funciones discriminantes para la f.d.p normal. • Simplificación de las funciones discriminantes. • Si i son iguales, no son significativas para : • Alternativamente, • Regla de mínima distancia Mahalanobis. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  49. 3. Funciones discriminantes para la f.d.p normal. • Funciones discriminantes lineales: • Superficies de decisión. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  50. 3. Funciones discriminantes para la f.d.p normal. • 3.2 Clasificadores cuadráticos • 3.2.1 Caso 3: i arbitrarias • Fronteras de decisión expresadas como una función cuadrática (círculos, elipses, parábolas, hipérbolas). • Este es el caso más general (caso 3), del cual se derivan como casos particulares los dos estudiados anteriormente. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

More Related