1 / 67

Técnicas Supervisadas Aproximación no paramétrica

Técnicas Supervisadas Aproximación no paramétrica. Reconocimiento de Patrones 2003. Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ. de Granada y en el libro Pattern Clasification de Duda, Hart y Storck

borna
Download Presentation

Técnicas Supervisadas Aproximación no paramétrica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 • Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ. de Granada y en el libro • Pattern Clasification de Duda, Hart y Storck • Parte del material se extrajo de las notas:Técnicas Supervisadas II: Aproximación no paramétrica • de F.Cortijo, Univ. de Granada

  2. Edición del conjunto de entrenamiento • Objetivo: • Reducir el conjunto de referencia • Mejorar la “calidad” del mismo • Eliminar outliers • Para aumentar tasa de acierto de 1-NN

  3. Edicion de Wilson • Reduce prototipos problemáticos. • Genera dependencia estadística entre los prototipos retenidos (validación cruzada) • Edicion con la regla k-NN

  4. Edicion por particiones • Realizo una partición del conjunto de entrenamiento. • Aplico la regla k-NN a cada prototipo pero considerando los vecinos de una partición particular distinta a la del prototipo. • Desempeño depende: • Paso de difusión • Partición inicial • Regla k-NN

  5. Edicion por particiones • Difusión: Ti generado por la partición de S • Clasificación: prototipo usando como referencia otro conjunto diferente • Edición: elimina el prototipo incorrectamente clasificado al terminar el proceso de clasificación • Confusión: El conjunto de prototipos resultante contiene todos los que han sido correctamente clasificados

  6. Multiedición • Para evitar la dependencia respecto a la partición inicial se aplica en forma iterativa el método de edición por particiones. En cada iteración se genera una nueva partición del conjunto de prototipos que se mantienen sin editar. • Edición con la regla 1-NN

  7. Conjunto | S| iteraciones | SM| A1 6884 18 6653 A2 1027 8 734 Figura 33: Número de prototipos descartados por iteración. Paro cuando en I iteraciones no hay descartes.

  8. Reducción del coste computacional para los métodos del vecino más cercano • Objetivo: • Incrementar eficacia computacional mediante la selección de un conjunto reducido y representativo del conjunto de prototipos • Contrapartida: • Genera ligera pérdida de bondad.

  9. Métodos

  10. Condensado de Hart Idea: • Un conjunto SC se dice consistente respecto a otro conjunto S, donde SCS, si S puede clasificarse correctamente usando los elementos de SC como referencia. • Selección de prototipos que determinen las fronteras de decisión • Incremental sin vuelta atrás

  11. Clase S SM SMC 1 3806 458 6 2 7542 267 4 3 5463 492 11 4 2796 34 2 5 8834 490 16 Total 28441 1741 39

  12. Reducción del conjunto de referencia ClaseSSMSMC 1 3806 458 6 2 7542 267 4 3 5463 492 11 4 2796 34 2 5 8834 490 16 Total 28441 1741 39

  13. Bondades de las clasificaciones 1-NN ClaseSSMSMCSC 1 100.00% 100.00% 100.00% 100.00% 2 99.29% 99.29% 98.58% 99.29% 3 30.10% 97.45% 96.43% 29.59% Bondad71.63% 98.57% 97.96% 71.43%

  14. Condensado de Hart • Requiere un conjunto previamente editado para asegurar la consistencia del conjunto condensado • No proporciona un conjunto mininal, sólo un conjunto reducido • Las fronteras de decisión no son tan buenas • Conjunto condensado no es único depende de las condiciones iniciales.

  15. Métodos de aprendizaje adaptativo • LVQ (Learning Vector Quantization) o aprendizaje por cuantificación vectorial, propuestos por Kohonen [E.3] • DSM (Decision Surface Mapping) o construcción de superficies de decisión, propuesto por Geva y Sitte [E.2].

  16. Métodos de aprendizaje adaptativo • Fija a priori la cantidad de prototipos del conjunto de aprendizaje resultante Np • El conjunto resultante no tiene porque estar incluido en el conjunto Inicial. • Heurística sencilla • Rapidez de cálculo • Dificultad para establecer valores adecuados de los parámetros.

  17. Aprendizaje competitivo y cuantificación vectorial • Sistema aprende de una secuencia de patrones: X = X(t) P,  t = 1, 2,... 2. {mi(t) : mi(t) P,  i = 1, 2,..., Np} • Un conjunto fijo de vectores de referencia o prototipos modifican durante el aprendizaje. • {mi(0), i = 1, 2,..., Np} ha sido inicializado de alguna forma. • Actualizo mc(t) que mejor empareje con X(t) se

  18. mc(t + 1) mc(t)  +  (t) [X(t) - mc(t)] mi(t + 1) mi(t)    para  ic Cuantificación Vectorial • (t) secuencia monótona decreciente de coeficientes escalares : 0 < (t) < 1

  19. Función de Ganancia o Razón de Aprendizaje

  20. Aprendizaje por cuantificación vectorial (LVQ) • Inicialización : • Determinación de Npi: • Proporcional a Ni. • Npi sea el mismo para todas las clases. • Seleccionan los prototipos de SLVQ(0): • Para cada clase, se procesan secuencialmente sus prototipos. • Se añaden a SLVQ(0) si la clasificación k-NN es correcta.

  21. mj(t + 1) mj(t) + (t)[X(t) - mj(t)]     {Premio a mj(t)} mi(t + 1) mi(t) -  (t)[X(t) - mi(t)]     {Castigo a mi(t)} Aprendizaje • SLVQ (0), SLVQ (1), ..., SLVQ(r - 1) = SLVQ Método LVQ-1 • Premio: Si la clase de mc(t), coincide con la X(t), • Castigo: En otro caso, mc(t) se aleja de X(t).

  22. LQV-1 • Tiende a mover los prototipos hacia prototipos de aprendizaje de su misma clase y a alejarlos de los de otra clase • Recomendable fijar un valor peqeño para (0), bastante menor que 0.1 (0.02 ó 0.03). • Número de pasos de aprendizaje es suficiente con presentar un número de prototipos 50 x Np  <  r  <  200 x Np. • No es tan importante el valor de r si el conjunto inicial es de buena calidad (previamente editado).

  23. Método LVQ-1 Optimizado (OLVQ-1)   (t)  • Positivo si (Clase (mc(t)) = Clase (X(t)). • Negativo si (Clase (mc(t)) =Clase (X(t)). • cmáx=0.3 • 30Np  <  r  <  50Np (usualmente, r = 40Np). • Se desestabiliza para valores altos de r

  24. mj(t + 1) mj(t) +  (t)[X(t) - mj(t)]     {Premio a mj(t)} mi(t + 1) mi(t) -  (t)[X(t) - mi(t)]     {Castigo a mi(t)} LVQ-2.1 Patrón modifica dos prototipos ( el más cercano de la misma clase y el más cercano de distinta clase) • valores bajos para (0)= 0.02 • 30Np  <  r  <  200Np

  25. mi(t + 1) mi(t) +(t)[X(t) - mi(t)] mj(t + 1) mj(t) + (t)[X(t) - mj(t)] LVQ-3 Modifica los dos patrones más cercanos: • Si mi y mj son de la distinta clase LVQ2.1 • Si mi y mj son de misma clase: =[0.1, 0.5]

  26. El desempeño es similar, idea: usar métodos con menos parámetros

  27. mc(t + 1) mc(t) +  (t)[X(t) - mc(t)]       {Premio} mw(t + 1) mw(t) -  (t)[X(t) - mw(t)]       {Castigo} Aprendizaje de superficies de decisión (DSM) • Se castiga al prototipo más cercano (el inductor del error). • Se premia al prototipo más cercano de la misma clase que Z(t).

  28. Tabla 11: Error de clasificación 1-NN para diferentes valores de Np Np DSM LVQ-1 6 7.14 19.00 8 3.82 19.55 9 1.86 14.64 10 0.43 12.34 20 0.43 4.44 24 0.41 3.06 50 0.49 2.51 250 0.79 1.84

More Related