470 likes | 659 Views
Conceptos, Problemas, Métodos. Análisis de datos de microarrays. Objetivos generales. Panorámica general Tipos de estudios El “pipe-line” básico, Familiarizarse con el proceso Input/Output a cada paso, Dificultades y opciones para resolverlas, Interpretación de los resultados.
E N D
Conceptos, Problemas, Métodos Análisis de datos de microarrays
Objetivos generales • Panorámica general • Tipos de estudios • El “pipe-line” básico, • Familiarizarse con el proceso • Input/Output a cada paso, • Dificultades y opciones para resolverlas, • Interpretación de los resultados. • Basado en ejemplos.
Y muchos más tipos … • Time Course • Perfiles de expresión a lo largo del tiempo • Pathway Analysis-(Systems Biology) • Reconstrucción de redes metabólicas a partir de datos de expressión • Whole Genome, CGH, Alternative Splicing • Estudios con datos de distintos tipos • Integración.
Efecto de la estimulación mediante LPS • Journal of Leukocyte Biology (2006;79:1314-1327). • Objetivo: Comprender las bases moleculares de los procesos regulados por la citokina en ratones. • Comparan RNA de • Ratones estimulados mediante LPS y sin estimular • Se sabe que la edad influye en la regulación • Ratones de dos grupos de edad (jovenes y viejos) • No se dispone de información sobre • Cómo se asignaron tratamientos a individuos, • Cómo se llevaron a cabo los arrays (día, lote, técnico…)
Diferentes perfiles de expresión en AML con trisomía 8 o citogenética normal • PNAS, January 30, 2001 vol. 98 (3) • Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos. • Estudio antiguo Datos de peor calidad y posibles lotes relacionados con procesado
El Diseño Experimental (DE) Start here
Origen de la variabilidad • Biological Heterogeneity in Population • Specimen Collection/ Handling Effects • Tumor: surgical bx, FNA • Cell Line: culture condition, confluence level • Biological Heterogeneity in Specimen • RNA extraction • RNA amplification • Fluor labeling • Hybridization • Scanning – PMT voltage – laser power (Geschwind, Nature Reviews Neuroscience, 2001)
Tratamiento de la variabilidad • Distintos tipos de variabilidad • Sistemática / Aleatoria • Distintas formas de controlarla/considerarla • Sistemática • Estimar la correccion a partir de los datos:Calibración, Normalización • Aleatoria • Diseño Experimental: controlar su influencia • Estudios de potencia: cuantificar su efecto • Analisis de significacion: inferencia.
Objetivo del diseño experimental • Facilitar análisis-interpretación de los datos • Lo mas simple y potente posible, • Teniendo en cuenta • El objetivo del experimento, • Las restricciones en material, tiempo y coste.
Implementación • Definir objetivos principales y secundarios. • Definir con que datos se trabajará • ¿Técnica más adecuada para generarlos? • Tipo de arrays, secuencias, controles… • Definir como se recogen las muestras • ¿Cómo asignamos tratamientos a los individuos? • ¿Qué tipo de réplicas deben hacerse? • ¿Debemos/Podemos/Necesitamos hacer pools? • ¿Existen limitaciones en tiempo, $, material? • Seguir los principios básicos del DE de Replicación, Control Local y Aleatorización
Principios del DE: Replicación • Aumenta Precisión y Potencia • No confundir fuentes de variación • Replicar más lo que varie más
Principios del DE: Bloqueo • Si hay variabilidad por heterogeneidad de muestras se puede confundir el efecto de los tratamientos con otras fuentes. • Definir grupos homogeneos o “bloques” • Asignar tratamientos a bloques de forma Aleatoria y Balanceada • Block what you can. Randomize what you cannot.
“To pool or not to pool” • Combinar el RNA de varias muestras en un “pool” • Hay diversas razones. Algunas correctas, otras no tanto • Alcanzar la mínima cantidad de RNA para hacer arrays • Reducir la variabilidad • Reducir el coste. • En todo caso debe hacerse correctamente • No sustituir varias muestras por un único pool. • No usarlo cuando interesa la variabilidad individual • Diseños apareados • Estudios predictivos No
Ejemplo de “pooling” • Estudio con 12 individuos 12 arrays Caro!!! • Opción 1: • Grupo A: 6 individuos 1 pool de 6 1 array • Grupo B: 6 individuos 1 pool de 6 1 array • Opción 2: • Grupo A: 12 individuos 4 pools de 3 4 arrays • Grupo B: 12 individuos 4 pools de 3 4 arrays • La opción dos puede ser más económica y de precisión similar al uso de 12 arrays, pero no es posible saberlo antes de hacer el experimento 8 arrays 8 arrays
Del diseño al análisis • Una vez identificados • la variable –respuesta- de interés, • los factores que afectan a su variación, y la relación entre éstos, • las fuentes de heterogeneidad del proceso que se controlan mediante bloqueo. • Podemos plantear un modelo lineal que … • Relacione respuestas y fuentes de variabilidad. • Sirva de base para el análisis de datos (ANOVA) que generará las listas de genes que buscamos.
Ejemplo de modelos • Estimulación por LPS • Perfiles de expresión en AML+/AML
Resumiendo … • Todo el estudio pivota entorno al DE • El objetivo induce el diseño. • El DE permite identificar las causas de variabilidad y determina • Qué tipo de datos utilizar, • Cómo recoger las muestras, • Cómo procesarlas y • Cómo deben ser analizadas
Y como dijo el maestro… To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps saywhat the experiment died of. Sir Ronald A. Fisher Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA
Etapas del preprocesado • Desde las imágenes hasta los datos para el análisis • Exploración visual. • Control de calidad. • Normalización y filtrado.
Normalización Preferred analysis methods for Affymetrix GeneChips …. Genome Biology 2005, 6:R16
El proceso de análisis estadístico • A partir de los datos normalizados y filtrados, • Basándose en el modelo definido en el diseño experimental, • Un Análisis de la Varianza (AOV) permite • seleccionar los genes asociados con cada una, • se manera separada para cada fuente de variabilidad incluída en el modelo.
Los ajustes necesarios • El análisis de datos de microarrays tiene características particulares: • Hay pocas muestras Puede haber mucha variabilidad espúrea. • Considerar métodos que regularicen la varianza • Se realizan cientos/miles de tests a la vez. • Es preciso realizar un ajuste de “multiple testing” si se quiere determinar la significación estadística.
Problema(1):Estimación de varianza • ¿Podemos fiarnos simplemente de la diferencia de medias o el valor de un estadístico t? • El ejemplo sugiere que no. • Averages can be driven by outliers. Courtesy of Y.H. Yang
¿Es preciso regularizar la varianza? • Varianzas grandes pueden generar falsos negativos. • Varianzas pequeñas generarán falsos positivos. • t’s can be driven by tiny variances. Courtesy of Y.H. Yang
Solución: Estadísticos “ad-hoc” SAM (Tibshirani, 2001) Regularized-t (Baldi, 2001) EB-moderated t (Smyth, 2003)
Problema (2): “Múltiple testing” • Supongamos que vamos a hacer varios tests a la vez • Dos tests al 5%. La probabilidad de obtener un falso positivo es 1 – 0.95*0.95 = 0.0975 • Tres tests 1 – 0.953 =0.1426 • n tests 1 – 0.95n • Se acerca a 1 cuando aumenta el nº de tests • Un p-valor pequeño no indica significación Si hacemos muchos tests no controlamos la probabilidad de error de tipo I
Resumiendo Como se analizan los datos • A partir de la matriz de expresión. • Se ajusta el modelo lineal definido en el DE • Preferiblemente utilizando un método que realice regularización de la varianza. • Se obtiene la lista de genes y los valores de test de las comparaciones interesantes ordenada de menor a mayor p-valor • Y se ajustan los p-valores teniendo en cuenta el numero de comparaciones realizadas.
Ejemplo LPS Genes cambiados entre LPS/Medium en ratones viejos
Ejemplo AML8 Genes cambiados entre LPS/Medium en ratones viejos
Soporte a la interpretación biólógicaAnálisis basado en la GO