1.28k likes | 1.55k Views
Estadística en el laboratorio. Técnicas graficas de exploración de datos. Técnicas graficas de exploración. Histogramas Gráfico de barras que representa una distribución de frecuencia.
E N D
Estadística en el laboratorio Técnicas graficas de exploración de datos
Técnicas graficas de exploración • Histogramas • Gráfico de barras que representa una distribución de frecuencia. • La altura de cada una de las barras representa la frecuencia de la observación identificada en el eje horizontal (x).
Técnicas graficas de exploración • Histogramas
Técnicas graficas de exploración • Gráfico de probabilidades • Es un histograma que muestra el número de veces que un resultado dado estuvo dentro de un rango específico, centrado alrededor de un valor medio.
Técnicas graficas de exploración • Gráfico de probabilidades
Técnicas graficas de exploración • Correlaciones • Nos ayuda a determinar si dos variables aleatorias son interdependientes. • Resulta de interés el conocer si existen alguna relación entre nuestra variables. • La herramienta estadística para este tipo de análisis son las correlaciones. • El método más común se basa en el coeficiente de Pearson.
Técnicas graficas de exploración • Correlaciones
Técnicas graficas de exploración • Correlaciones
Apliquemos la estadística Hagamos un Ejercicio
Ejercicio 1: Evaluemos un método • Pensemos en la comparación de un nuevo método de análisis con uno tradicional • La pregunta es: ¿Cuál es el mejor? • Mejor: menor error, menor límite de detección, menor tiempo de análisis, etc. • ¿Cómo lo haría? • ¿Por donde partimos?
Ejercicio 1: Evaluemos un método • Resulta claro que es necesario un diseño experimental. • Sin embargo, en base a su diseño: • ¿Ha logrado comparar el desempeño de ambos métodos para el análisis de la muestra? • O • ¿Ha logrado comparar el desempeño del analista para el uso de ambos métodos? (Dado que es claro que el analista poseía más experiencia en su método que en el tradicional) • De aquí la importancia de realizar los experimentos con un adecuado diseño.
Química y ciencia • La ciencia práctica no debe iniciar con la colección de datos, sino con una hipótesis acerca de un problema o técnica. • La data a ser colectada deber ser relevante para responder al problema o probar la hipótesis. • Una mala selección de los parámetros a evaluar resultará en un costo innecesario. • Un experimento correctamente realizado, nos permite identificar parámetros redundantes que serán omitidos en futuros análisis.
Calidad de resultados • La calidad de cualquier resultado es dependiente de la muestra utilizada. • No existe técnica estadística que “recupere” un dato mal levantado. • El resultado de cualquier análisis estadístico es solo tan bueno como la calidad de los datos utilizados. • De aquí la importancia de contar con una muestra representativa y un adecuado diseño. • En casos donde el diseño experimental no es aplicable (ej. monitoreo ambiental), la muestra debe ser representativa del sistema.
Calidad de resultados • Entonces, la pregunta inicial sería: • ¿Cuál es el propósito del experimento, y qué propongo como resultado? • Pregunta que deberá ser transformada en una hipótesis. • Finalmente la hipótesis deberá ser evaluada en base a técnicas estadísticas apropiadas e identificadas a priori.
Calidad de resultados • Sin embargo, siempre es posible “torturar” sus datos, a fin de “escuchar” lo que desean. • Sin embargo, resultados obtenidos en base a una “tortura” estadística suelen ser difíciles de defender ante expertos (eg. transformaciones). • Mucho mejor cuando un correcto diseño y adecuados métodos son utilizados para dejar “hablar” por sí solos a sus datos.
Evaluación estadística de datos Fuentes de error
Fuentes de error • Una vez realizado el análisis químico, el resultado final será un valor, que predominantemente cuantifica los niveles de un parámetro de interés. • Sin embargo, ése valor está sujeto a variables que pueden incidir en su magnitud (i.e. fuentes de error). • Por tal motivo, consientes de la variabilidad en la naturaleza, es necesario contar con una medida de ese error o incertidumbre en la medida.
Fuentes de error • Es importante también no sólo conformarse con el resultado arrojado por la estadística, sino también confrontar ese resultado con la población de la cual fue obtenido. • Ej. Se calcula el promedio de la estatura de los estudiantes del presente curso, y se determina una media de 296 cm. • ¿Lo aceptamos? • Es necesario confrontar ese valor con lo que nosotros observamos en base a un criterio experto en la población.
Principales tipos de error • Los científicos generalmente consideran tres tipos de error: • Errores groseros o accidentales • Errores sistemáticos • Errores aleatorios.
Principales tipos de error • Errores groseros • Causados por un daño en el equipo tales como fallas de voltaje, daño en la lámpara, contaminación severa de la muestra, soluciones contaminadas, etc. • Un error de este tipo en el experimento DEBE anular completamente los resultados • Sin embargo, ¿cómo los detectamos si no contamos con una réplica?
Principales tipos de error • Errores sistemáticos: • Debidos a imperfecciones en el procedimiento, que conllevan un bias en la data (ej. datos superiores o inferiores) • Surgen por pobre calibración de instrumentos o uso incorrecto de la vidriería para medición de volúmenes. • Este tipo de errores pueden ser constantes o proporcionales. • Generalmente de fácil detección por medios gráficos (ej. recta de calibración). • Difíciles de detectar cuando existen errores sistemáticos positivos y negativos !
Principales tipos de error • Principales tipos de errores sistemáticos: • De muestreo, en cuyo caso la muestra no es representativa de la población • Error del método, debido a sus limitaciones • Errores de medida, debido a la tolerancia de los instrumentos utilizados (ej. 25mL +/- 0.03mL) • Errores personales, debido a los sesgos introducidos por el analista
Principales tipos de error • Principales tipos de errores sistemáticos: • Error sistemático constante, cuyo valor es igual en todas las muestras. • Error sistemático proporcional, cuyo valor depende de la cantidad de muestra analizada
Principales tipos de error • Errores aleatorios (o ruido): • Generan resultados dispersos alrededor del valor promedio. • Mientras mayor la aleatoriedad mayor la dispersión. • Generalmente no tenemos control sobre ellos. • Pudiendo afectar la precisión (Reproductibilidad) de los resultados experimentales. • Nuestro objetivo: reducirlos. • La precisión es determinada a partir de réplicas.
Algunos términos comunes • Generalmente referidos en laboratorio: • Exactitud • Precisión • Dentro de rachas (Within-run) • Entre rachas (Between-run) • Repetitividad • Reproducibilidad
Algunos términos comunes • Exactitud: • Decimos que un resultado es exacto cuando las mediciones realizadas son cercanas al valor real (patrón). • La ISO define exactitud como el grado de concordancia entre el resultado de un ensayo y el valor de referencia aceptado del analito. • Esto implica que los errores sistemáticos son mínimos.
Algunos términos comunes • Precisión: • Decimos que un análisis es preciso cuando las mediciones realizadas poseen una pequeña dispersión de sus valores. • Por lo tanto, es una medida de la reproducibilidad. • Es decir que los errores aleatorios son mínimos.
Algunos términos comunes • Within-run: • Conjunto de mediciones realizadas en secuencia en el mismo laboratorio utilizando el mismo equipo.
Algunos términos comunes • Between-run: • Conjunto de mediciones realizadas en diferentes ocasiones, posiblemente en diferentes laboratorios y bajo diferentes circunstancias
Algunos términos comunes • Repetitividad: • Una medida de la precisión de dentro de rachas (within-run). • Reproducibilidad: • Una medida de la precisión de entre rachas (between-run).
Evaluación estadística de datos Precisión y exactitud
Precisión y exactitud • Para la química analítica, es vital realizar mediciones analíticas que provean resultados precisos y exactos. • Incluso, la calidad de la información puede ser evaluada mediante su precisión y exactitud. • La exactitud puede ser definida como la habilidad del resultado medido de ser igual al valor verdadero en la data [E= x̄- ].
Midiendo la exactitud y la precisión • Exactitud: • Evaluada en base al valor promedio. • Precisión: • Evaluada en base a la desviación estándar.
Midiendo la exactitud y la precisión • Cuatro principales escenarios de precisión y exactitud para los resultados:
Midiendo la exactitud y la precisión • En química analítica, se suele dar prioridad a la precisión más que a la exactitud. • Los resultados obtenidos con precisión podrían ser corregidos mediante comparación con estándares. • En cambio, resultados con baja precisión no pueden ser corregidos posteriormente.
Midiendo la exactitud y la precisión • ¿Cómo evaluar la precisión de mis resultados? • La desviación estándar provee una medición útil de la dispersión de mis resultados alrededor de un valor central (¿y la forma de la distribución?). • Sin embargo, a fin de evaluar la precisión de los resultados se puede recurrir a las distribuciones de frecuencia. • Mientras más amplia sea la distribución, menor será la precisión de los resultados. • Se suele asumir que datos correctamente colectados presentarán una distribución normal, lo cual nos permite el posterior uso de modelos estadísticos basados en esta distribución (normal).
Midiendo la exactitud y la precisión • A fin de graficar un histograma que refleje la distribución de mis resultados, necesitaré una gran cantidad de datos (i.e. 500 observaciones). • Sin embargo, puedo hacer uso del teorema del límite central: • Un conjunto de datos (resultados) presentarán la misma distribución que la de la población a la que pertenecen. • Conforme el tamaño de la muestra se incrementa, los datos se aproximarán más a un distribución normal.
Evaluación estadística de datos distribución de probabilidades
Distribución normal • Obtenida al graficar una distribución de probabilidad en base a una gran cantidad (infinita) de observaciones. • Su forma y simetría alrededor de la media es función de la desviación estándar. • Independientemente de su media y desviación estándar, es siempre cierto que aproximadamente: • 68% de las observaciones recaen entre +/- 1 DS a partir de la media. • 95% de las observaciones entre +/- 2 DS. • 99.7% entre +/- 3 DS.
Distribución normal • Responde a la fórmula:
La Distribución normal estándar • Por conveniencia, la distribución normal puede ser transformada a una distribución normal estándar en términos de z, donde: • Y considerando: • Media ()= 0 • Desviación estándar ()= 1 • Donde:
La Distribución normal estándar • De esta manera, conociendo y , y asumiendo que dicha variable posee una distribución normal, es posible calcular (z) • Así, se puede determinar el área bajo la curva de la distribución.
La Distribución normal estándar • Ejemplo: • Si las medidas repetidas de una valoración se distribuyen de forma normal con media de 10.15 mL y desviación estándar de 0.02 mL, encuentre: • La proporción de medidas que serán inferior a 10.20 mL. • La proporción de medidas que serán inferiores a 10.12 • La proporción de medidas que estarán entre 10.12 mL y 10.20 mL.
Evaluación estadística de datos El problema de las muestras pequeñas
La distribución t • La Distribución t • Nunca podremos muestrear a todos los representantes de la población. • Necesidad de estimar la y la de la población N en base a una muestra de tamaño n. • De aquí: • x̄ • s
La distribución t • Sin embargo, toda estimación conlleva una incertidumbre. • La incertidumbre en la estimación de y dependerá del tamaño de la muestra. • Es por esto que la distribución t [o (t)] nos sirve para “ajustar” esa incertidumbre en función de n. • Cuando n es pequeña (ej. 3 o 5) la incertidumbre es mayor que cuando n es grande (ej. 30 a 50).
La distribución t • Ahora, el valor de puede ser estimado a partir de x̄ mediante: • Donde: • sx̄ es la desviación estándar de la muestra • t/2 es el valor de t para el nivel de confianza deseado (ej. 95%) y con cierto número de grados de libertad (n - 1). • Obteniéndose un rango de posibles valores de .