320 likes | 538 Views
PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS. FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO. INTRODUCCIÓN. HTS (High-Throughput Screening) es un primer paso crítico en el descubrimiento de nuevos medicamentos.
E N D
PRÁCTICA ESTADÍSTICA EN EL ANÁLISIS DE DATOS EN HTS FRANCISCO JAVIER CABRERIZO LORITE MIGUEL GALINDO TRIGO
INTRODUCCIÓN • HTS (High-Throughput Screening) es un primer paso crítico en el descubrimiento de nuevos medicamentos. • Su objetivo es analizar un gran número de compuestos químicos para identificar cuales son ‘hits’ de forma rápida y correcta. • Aquí nos centraremos en los efectos relativos a la posición de las muestras dentro de las placas, la elección del umbral de identificación de hits y la importancia de minimizar los falsos positivos y falsos negativos. • Se comentará el uso de medidas replicadas junto con métodos estadísticos robustos en la etapa inicial para facilitar el descubrimiento de verdaderos hits, mejorando el proceso.
INTRODUCCIÓN • La combinación de métodos robóticos, procesamiento paralelo y miniaturización de los ensayos biológicos ha incrementado enormemente el rendimiento en HTS.
INTRODUCCIÓN • Sin embargo, esto ha sido compensado por un incremento de costes. • Al principio, el reto era encontrar el medicamento más comerciable mientras se intentaba maximizar el número de objetivos y compuestos analizados, minimizando los costos por muestras. • Ahora, además, HTS se está integrando en entornos académicos donde se pueden estudiar objetivos alternativos y enfermedades de menor valor comercial.
INTRODUCCIÓN • HTS es un proceso a gran escala que investiga miles de compuestos químicos con el objetivo de identificar posibles candidatos a formar parte de medicamentos de forma rápida y correcta. • Mientras que el formato de la placa y el número de compuestos por placa puede variar, es normal, que sólo se obtenga una única medida de la actividad del compuesto en esta primera etapa.
INTRODUCCIÓN • Los compuestos identificados para continuar (hits) se confirman como hits fiables en la etapa secundaria. • En la etapa secundaria se analizan muchos menos compuestos y se suelen usar medidas duplicadas. • Los hits dudosos de la primera etapa podrían fallar en la validación realizada en esta.
INTRODUCCIÓN • Los hits confirmados con una actividad biológica establecida conforme a las SAR (structure-activity relationship) series son nombrados ‘leads’. • Estos leads se utilizarán en pruebas clínicas para comprobar si se pueden comercializar como medicamentos.
INTRODUCCIÓN • Los errores que pueden surgir en el proceso, pueden deberse a: • Ruido producido por factores técnicos o de procedimiento. • Otros de origen desconocido. • Estos efectos adversos pueden minimizarse: • mediante procedimientos de control de calidad, y • mediante correcciones estadísticas que podrían también ser necesarias para mitigar los efectos de variaciones incontroladas.
INTRODUCCIÓN • Las diferencias en la variabilidad pueden crear desigualdades entre los compuestos. • La actividad medida en los compuestos de baja variabilidad casi siempre será cercana a sus auténticos valores. • Por el contrario, los niveles de actividad medida en los compuestos de alta variabilidad pueden diferir considerablemente de sus auténticos valores. • Una vez que la eficiencia técnica y de procedimiento han sido optimizadas, la única forma de minimizar más la variabilidad es obteniendo estimaciones de los niveles de actividad tomando medidas (media, mediana) mediante medidas replicadas, ya que estas son menos variables que las estimaciones basadas en una única medida.
INTRODUCCIÓN • PREPROCESAMIENTO. • Necesidad de normalizar. • Métodos estadísticos de normalización (POC, NPI, Z score, B score). • Recomendaciones. • INFERENCIA ESTADÍSTICA Y UMBRALES PARA LOS HITS. • Decisión sobre que compuestos deberían procesarse en la etapa secundaria. • Diferentes modos actuales de identificación de hits. • Recomendaciones. • USO DE RÉPLICAS. • Ventajas. • Práctica actual. • Recomendaciones. • CONCLUSIONES.
PROCESAMIENTO DE DATOS EN HTS • Para realizar un buen procesamiento de datos, se necesitan controles de calidad y medidas de corrección. Así, los controles dentro de la placa permiten identificar la variabilidad entre placas. • La normalización de los datos es importante para eliminar las variaciones sistemáticas entre placas, haciendo las medidas comparables entre ellas. • Los errores sistemáticos decrementan la validez de los resultados sobreestimando o subestimando los valores verdaderos. Estas desviaciones pueden afectar a todas las medidas por igual o pueden depender de factores como la localización del compuesto, la distribución de líquido y la intensidad de la señal.
PROCESAMIENTO DE DATOS EN HTS • La actividad medida en los compuestos es una función de al menos dos factores: • La auténtica actividad del compuesto, y • Un error aleatorio. Yijp = μijp + εijp • Donde Yijp es la medida observada en la posición localizada en la fila i y columna j de la placa p, μijp es la actividad real y εijp es el efecto producido por las fuentes de error.
Debido a la forma en la cual los compuesto se ponen en las placas, los controles se sitúan normalmente en las columnas exteriores. Sin embargo, los errores sistemáticos en esas columnas externas, pueden afectar a todas las medidas en la placa ya que son ajustadas en base a esos controles. Efectos frontera. PROCESAMIENTO DE DATOS EN HTS
PROCESAMIENTO DE DATOS EN HTS • MÉTODOS DE PROCESAMIENTO. • 1. Porcentaje de control: método que intenta corregir la variabilidad entre placas normalizando las medidas de los compuestos respecto a los controles. Las medidas de cada compuesto se dividen por la media de sus controles positivos de su placa. • Donde xi es la medida obtenida del compuesto i y c es la media de las medidas de los controles positivos.
PROCESAMIENTO DE DATOS EN HTS • 2. Porcentaje normalizado de inhibición: método de control en el cual la diferencia entre la medida del compuesto y la media de los controles positivos es dividida por la diferencia entre las medias de las medidas de los controles positivos y negativos.
PROCESAMIENTO DE DATOS EN HTS • 3. Z score: método de control que excluye las medidas de control bajo la suposición de que la mayoría de los compuestos están inactivos y pueden servir como controles; las medidas de los compuestos son reescaladas relativamente a la variación dentro de la placa restándole la media de los valores de la placa y dividiendo la diferencia por la desviación estándar estimada de todas las medidas de la placa.
PROCESAMIENTO DE DATOS EN HTS • INCONVENIENTES DE ESTOS MÉTODOS: • Asumen que la distribución de error aleatoria es común para todas las medidas de la placa, lo que no siempre es cierto. • Confían en estadísticas no robustas, ya que las medias y desviaciones estándar son altamente influenciables por los extremos estadísticos, que en el contexto de HTS son supuestos hits. • Solución: usar otros estimadores más resistentes: mediana, desviación absoluta media. • MEJORA: B score.
PROCESAMIENTO DE DATOS EN HTS • B score: es un método análogo robusto del Z score que usa un índice de dispersión que es más resistente a la presencia de extremos y más robusto a las diferencias en las distribuciones de las medidas de error de los compuestos. • Primero elimina los efectos de las filas y las columnas de la placa. • Donde rijp es el residuo definido como la diferencia entre el resultado observado yijp y el valor ajustado ŷijp, definido como una estimación de la media de la placa μp + la medida de compensación de la fila i de la placa p, Rij + la medida de compensación de la columna j de la placa p, Cjp. • Los residuos resultantes en cada placa se dividen por sus desviaciones absolutas medias para estandarizar la variabilidad entre placas.
PROCESAMIENTO DE DATOS EN HTS • Donde • VENTAJAS: • Es no parámetrico. • Minimiza las desviaciones debidas a los efectos de posición. • Es resistentes a los outliers.
PROCESAMIENTO DE DATOS EN HTS • RECOMENDACIONES: • Se prefiere normalizar sin usar controles. • Se prefiere el método B score, sobre todo si se sospecha que existan bias en filas y columnas. • Los controles si son necesarios, deberían estar localizados aleatoriamente en la placa, minimizando los bias de las filas y columnas. Sin embargo, la forma actual de colocar los compuestos en las placas no se presta a la aleatorización. • Solución: una forma de minimizar los efectos de posición, es ir alternando la localización de los compuestos para los controles positivos y negativos a lo largo de las fronteras de la placa.
INFERENCIA ESTADÍSTICA Y UMBRALES DE IDENTIFICACIÓN DE HITS • El siguiente paso es decidir que compuestos deberían procesarse en la etapa secundaria. • Actualmente los procesos de inferencia no están bien definidos estadísticamente: los procedimientos para la identificación de hits se basan en reglas básicas informales más que en juicios probabilísticos. • Experimentalmente, se demuestra que bajando el umbral del hit se incrementan la proporción de falsos positivos mientras que baja la de falsos negativos.
INFERENCIA ESTADÍSTICA Y UMBRALES DE IDENTIFICACIÓN DE HITS • PRÁCTICA ACTUAL: • Un modo de identificar hits es dibujar la actividad de los compuestos sobre el eje y, y la identidad de los compuestos sobre el eje x. • Los compuestos cuya actividad medida se desvíen del resto se identifican como hits. • INCONVENIENTE: los compuestos potencialmente importantes de baja o intermedia actividad son difíciles de identificar y podrían perderse. • Otro modo de identificar hits es tomar un porcentaje de los compuestos más activos. • INCONVENIENTE: arbitraria. • Otro modo de identificar hits es tomar aquellos cuya actividad exceda un umbral de porcentaje de control. • Cualquier compuesto con una actividad medida que sea al menos el doble de la media de las medidas de los controles negativos se considera un hit.
INFERENCIA ESTADÍSTICA Y UMBRALES DE IDENTIFICACIÓN DE HITS • RECOMENDACIONES: • Respecto a los falsos negativos se puede hacer muy poco, y por ello, es mejor adoptar una perspectiva progresista y centrarse en los hits conseguidos. • Sin embargo, es importante cuantificar las proporciones de potenciales falsos negativos conseguidos antes de decidir si o no son despreciables en un experimento particular. • La mayoría de las decisiones importantes se basan en la percepción subjetiva y la experiencia pasada. Sin embargo deberían tenerse en cuenta también métodos estadísticos y un uso juicioso de las réplicas que mejoraría la detección de los compuestos mínimamente activos pero farmacológicamente importantes.
USO DE RÉPLICAS • La precisión puede incrementarse obteniendo réplicas y minimizando la variación debida al manejo de las muestra y al procesamiento. • Las estimaciones aleatorias de error, fundamentales en la inferencia estadística, se obtienen típicamente a partir de las medidas replicadas. • El uso de réplicas reduce la variabilidad de los datos, lo cual se refleja en el estrechamiento de la distribución de los datos. De esta forma, el número de falsos negativos se minimiza mientras el de falsos positivos se mantiene ajustado.
USO DE RÉPLICAS • PRÁCTICA ACTUAL: • Por cuestiones de tiempo y coste, sólo se toma una medida de los compuestos en la primera etapa del proceso. • INCONVENIENTE: deben hacerse fuertes suposiciones para estimar el error aleatorio. • Las medidas replicadas se utilizan para los experimentos realizados en la segunda etapa. • Aunque se está empezando a recomendar el uso de réplicas también para la primera etapa.
USO DE RÉPLICAS • Las réplicas ideales son aquellas medidas que se repiten sobre los mismos compuestos bajo las mismas condiciones experimentales. De esta forma: • Múltiples relecturas de la misma placa no son recomendadas como réplicas (excepto como comprobación para posibles errores en el proceso de lectura). • Compuestos estructuralmente similares (análogos) tampoco son recomendables como réplicas (a pesar de que podrían mostrar actividades comparables). • Medidas sobre los mismos compuestos bajo diferentes circunstancias experimentales (primera etapa versus segunda etapa) tampoco deben ser usadas como réplicas debido a que podrían estar influenciados por diferentes factores.
USO DE RÉPLICAS • Juntar compuestos en varias combinaciones en diferentes pipetas ofrece ventajas de ahorro en tiempo pero no puede considerarse como réplicas en el modo normal. • Ejemplo: • Los falsos positivos tienen más posibilidad de aparecer cuando los compuestos que interactúan débilmente se junta en la misma pipeta o cuando los compuestos realmente activos se incrementan en una fila. • Por el contrario, los falsos negativos son menos comunes en este método, pero podría crecer el número de falsos negativos si los compuestos juntados tienen efectos biológicos contrarios de fuerza similar.
USO DE RÉPLICAS • RECOMENDACIONES: • Las réplicas ofrecen dos ventajas: • Mayor precisión para la medida de actividad. • Medias para estimar la variabilidad asociada con las medidas. • Comparado con la incertidumbre de una única medidas, la imprecisión de la media se reduce • Donde n es el número de réplicas. • Con 2 réplicas se reduce la imprecisión un 29%, con 3 se reduce un 13% más y con 4, un 8% más, con lo que tenemos un 50% menos de imprecisión que con una única medida, lo que facilita detectar compuestos poco activos.
USO DE RÉPLICAS • Las réplicas se pueden situar en la misma o en diferentes placas. Aunque dentro de una placa la variación será normalmente menor, se prefiere la replicación entre placas porque representa una estimación más realista de la variación. • En general es importante obtener estimaciones de la variabilidad total de cualquier proceso de medida. • La mayoría de las prácticas actuales hacen fuertes suposiciones sobre los datos (por ejemplo, la misma magnitud de error aleatorio asociado a todas las medidas), lo cual si es incorrecto puede incrementar el número de falsos positivos y falsos negativos. • Sin estudios a gran escala con medidas replicadas, estas suposiciones y las ventajas de aproximaciones de modelos estadísticos más complejos son difíciles de verificar.
CONCLUSIONES • Los métodos estadísticos tienen un rol limitado en HTS. • Uno de sus usos es para relacionar propiedades químicas con niveles de actividad durante el experimento para dar información sobre selección de compuestos o, • Software de minería de datos para el control de calidad. • A pesar de estos avances en el análisis de datos, HTS continua careciendo de procedimientos universales para procesar y extraer conocimiento de los experimentos. • Las medidas replicadas dan muchas ventajas a la hora de tomar las decisiones sobre la elección de hits.
CONCLUSIONES • Ajustar estadísticamente los efectos de filas y columnas a través de procesos como el usado por el método B score ofrece ganancias en inferencia y deberían usarse rutinariamente. • La suposición de una varianza de error común para todos los compuestos en la identificación de hits es incorrecto al menos algunas de las veces. • Como mínimo, la suposición debería verificarse replicando algunos de los compuestos y comprobando frente a las distribuciones derivadas teóricamente. • Los avances en los modelos estadísticos de HTS darán benchmarks contra los cuales comparar los resultados experimentales y como consecuencia ayudarán a estandarizar el proceso de identificación de hits.
CONCLUSIONES • Mejorando la calidad de las medidas y mejorando las proporciones cuantificables de falsos positivos y falsos negativos, los modelos estadísticos pueden mejorar la eficacia de las consideraciones no estadísticas para guiar el desarrollo.