290 likes | 545 Views
Calibración multivariada Parte 5 - Selección de factores. Alejandro C. Olivieri. Departamento de Química Analítica Instituto de Química Rosario (CONICET) Facultad de Ciencias Bioquímicas y Farmacéuticas Universidad Nacional de Rosario ARGENTINA.
E N D
Calibración multivariada Parte 5 - Selección de factores Alejandro C. Olivieri Departamento de Química Analítica Instituto de Química Rosario (CONICET) Facultad de Ciencias Bioquímicas y Farmacéuticas Universidad Nacional de Rosario ARGENTINA
Estimación del número significativo de factores, o autovectores, o scores de calibrado. ¿Cuánto vale A?
¿Por qué es esencial estimar correctamente el número de factores en los métodos que usan variables latentes?
Error Factores Porque el error de predicción en las muestras de calibrado disminuye al aumentar el número de factores, pero aumenta el error de predicción en muestras de test independientes. Subajuste Sobreajuste Predicción (o) y calibración ()
Verdadero Media Sesgo Probabildad Resultado experimental Relación entre error estándar y sesgo
RMSE mínimo Error de predicción Variancia moderada Sesgo alto Factores, componentes, etc. Visión realista del compromiso sesgo-variancia
Efectos del sobreajuste en la extrapolación: ¿cuál será la población de EEUU en 2010? 400 ? 350 ? 300 Millones 250 200 150 100 50 0 1900 1920 1940 1960 1980 2000 2020 Año
Ajuste polinómico de grado 1: ¿sub-ajuste? 400 350 300 Millones RSS=555.99 250 200 150 100 Considerable Residual sum of squares (RSS). 50 0 1900 1920 1940 1960 1980 2000 2020 Año
Ajuste polinómico de grado 2: ¿buen ajuste? 400 350 300 Millones RSS=102.16 250 200 150 100 RSS muy mejorado 50 0 1900 1920 1940 1960 1980 2000 2020 Año
Ajuste polinómico de grado 3: ¿sobre-ajuste? 400 350 Millones 300 RSS=102.06 250 200 150 100 RSS casi sin cambios 50 0 1900 1920 1940 1960 1980 2000 2020 Año
Ajuste polinómico de grado 2: revisión 400 Interpolación 350 300 RSS=102.16 Millones 250 200 Extrapolación 150 100 Incertidumbre en la predicción casi constante al interpolar; extrapolación razonablemente segura 50 0 1900 1920 1940 1960 1980 2000 2020 Año
Ajuste polinómico de grado 3: revisión 400 Interpolación 350 300 RSS=102.06 Millones 250 200 Extrapolación 150 100 Incertidumbre en la predicción casi constante al interpolar; extrapolación altamente incierta 50 0 1900 1920 1940 1960 1980 2000 2020 Año
Estimación del número óptimo de factores Criterio visual
Clasificación de PCs Significativo No significativo
Determinación de bromhexina en un jarabe mediante espectroscopía UV-visible. Calibrado: 12 muestras. Test: 11 muestras. Raw calibration Raw unknowns 2 2 1.5 1.5 1 1 0.5 0.5 0 0 20 40 60 20 40 60 Preprocessed calibration Preprocessed unknowns 0.5 0 0 -0.2 -0.4 -0.5 -0.6 -1 -0.8 20 40 60 20 40 60 Sensors Sensors
Componentes principales: bromhexina en jarabes 1 2 3 4 5 ¿Significativo o no?
Estimación del número óptimo de factores % de Variancia Explicada
PCs y variancia explicada: determinación de bromhexina en jarabes 100 95 90 ¿2 ó 3 factores? Variancia explicada 85 80 75 1 2 4 6 8 10 12 PC
Estimación del número óptimo de factores por validación cruzada dejando una muestra fuera (leave-one-out cross-validation)
Validación cruzada en PCR dejando una muestra fuera • Se quita una muestra del juego de calibrado • Se calibra con las restantes usando un factor • Se predice la concentración en la muestra quitada • Se calcula el error (ypred – ynom) • Se quita otra muestra del juego de calibrado • Se calcula el PRESS = S (ypred – ynom)2 • Se repite el cálculo para 2, 3, ..., A factores
¿3 ó 4 factores? Análisis de PRESS en función de A:bromhexina en jarabes PRESS vs. A 0.8 0.6 PRESS 0.4 log(PRESS) vs. A 0.2 0 0 1 2 3 4 5 6 -1 Factores log(PRESS) -2 -3 2 3 4 5 6 1 Factores
PRESS Mínimo Criterio de Haaland: Anal. Chem. 60, 1193 (1988) Mínimo PRESS p menor que 0.75 El número óptimo de factores es 3
Análisis de bromhexina en un jarabe mediante PLS usando 2, 3 y 4 factores: RMSE y REP% son el error promedio absoluto y relativo, respectivamente, para un conjunto de muestras independientes de validación del modelo PLS.
Spectral residues Predicted vs. actual 0.02 Ideal 2 Real 0.015 0.01 Residue (%) Predicted 1 Slope = 1.0241 0.005 SD = 0.012937 Intcp = -0.032388 SD = 0.022831 0 0 2 4 6 8 10 0 1 2 Sample Actual Errors EJCR 0.15 0.1 Ideal EJCR 0.1 0.05 0.05 0 Intercept Error 0 -0.05 -0.05 -0.1 2 4 6 8 10 0.95 1 1.05 1.1 1.15 Sample Slope Resultados para A = 2
Spectral residues Predicted vs. actual 0.015 Ideal Real 2 0.01 Residue (%) Predicted 1 Slope = 1.0232 0.005 SD = 0.010774 Intcp = -0.0063614 SD = 0.019014 0 0 2 4 6 8 10 0 1 2 Sample Actual Errors EJCR 0.15 0.1 Ideal EJCR 0.1 0.05 0.05 0 Intercept Error 0 -0.05 -0.05 -0.1 2 4 6 8 10 0.95 1 1.05 1.1 Sample Slope Resultados para A = 3
-3 Predicted vs. actual Spectral residues x 10 Ideal 3 Real 2 2 Residue (%) Predicted 1 Slope = 1.0304 1 SD = 0.010724 Intcp = -0.022954 SD = 0.018926 0 0 2 4 6 8 10 0 1 2 Sample Actual Errors EJCR 0.15 0.1 Ideal EJCR 0.1 0.05 0.05 0 Intercept Error 0 -0.05 -0.05 -0.1 2 4 6 8 10 0.95 1 1.05 1.1 1.15 Sample Slope Resultados para A = 4
Ockham’s razor Frustra fit per plura quod potest fieri per pauciora “Es inútil hacer con más lo que se puede hacer con menos” Guillermo de Ockham (ca. 1286 - 1347)
William de Baskerville es una mezcla de William de Ockham, y “El sabueso de losBaskervilles”, libro de Arthur Conan Doyle cuyo protagonista es Sherlock Holmes.