1 / 47

Análisis de datos de microarrays

Conceptos, Problemas, Métodos. Análisis de datos de microarrays. Objetivos generales. Panorámica general Tipos de estudios El “pipe-line” básico, Familiarizarse con el proceso Input/Output a cada paso, Dificultades y opciones para resolverlas, Interpretación de los resultados.

Download Presentation

Análisis de datos de microarrays

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Conceptos, Problemas, Métodos Análisis de datos de microarrays

  2. Objetivos generales • Panorámica general • Tipos de estudios • El “pipe-line” básico, • Familiarizarse con el proceso • Input/Output a cada paso, • Dificultades y opciones para resolverlas, • Interpretación de los resultados. • Basado en ejemplos.

  3. Tipos de estudios (1): Class comparison

  4. Tipos de estudios (2): Class discovery

  5. Tipos de estudios (3): Class prediction

  6. Y muchos más tipos … • Time Course • Perfiles de expresión a lo largo del tiempo • Pathway Analysis-(Systems Biology) • Reconstrucción de redes metabólicas a partir de datos de expressión • Whole Genome, CGH, Alternative Splicing • Estudios con datos de distintos tipos • Integración.

  7. Workflow for a typical microarray experiment

  8. Ejemplos

  9. Efecto de la estimulación mediante LPS • Journal of Leukocyte Biology (2006;79:1314-1327). • Objetivo: Comprender las bases moleculares de los procesos regulados por la citokina en ratones. • Comparan RNA de • Ratones estimulados mediante LPS y sin estimular • Se sabe que la edad influye en la regulación • Ratones de dos grupos de edad (jovenes y viejos) • No se dispone de información sobre • Cómo se asignaron tratamientos a individuos, • Cómo se llevaron a cabo los arrays (día, lote, técnico…)

  10. Diferentes perfiles de expresión en AML con trisomía 8 o citogenética normal • PNAS, January 30, 2001 vol. 98 (3) • Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos. • Estudio antiguo Datos de peor calidad y posibles lotes relacionados con procesado

  11. El Diseño Experimental (DE) Start here

  12. Origen de la variabilidad • Biological Heterogeneity in Population • Specimen Collection/ Handling Effects • Tumor: surgical bx, FNA • Cell Line: culture condition, confluence level • Biological Heterogeneity in Specimen • RNA extraction • RNA amplification • Fluor labeling • Hybridization • Scanning – PMT voltage – laser power (Geschwind, Nature Reviews Neuroscience, 2001)

  13. Tratamiento de la variabilidad • Distintos tipos de variabilidad • Sistemática / Aleatoria • Distintas formas de controlarla/considerarla • Sistemática • Estimar la correccion a partir de los datos:Calibración, Normalización • Aleatoria • Diseño Experimental: controlar su influencia • Estudios de potencia: cuantificar su efecto • Analisis de significacion: inferencia.

  14. Objetivo del diseño experimental • Facilitar análisis-interpretación de los datos • Lo mas simple y potente posible, • Teniendo en cuenta • El objetivo del experimento, • Las restricciones en material, tiempo y coste.

  15. Implementación • Definir objetivos principales y secundarios. • Definir con que datos se trabajará • ¿Técnica más adecuada para generarlos? • Tipo de arrays, secuencias, controles… • Definir como se recogen las muestras • ¿Cómo asignamos tratamientos a los individuos? • ¿Qué tipo de réplicas deben hacerse? • ¿Debemos/Podemos/Necesitamos hacer pools? • ¿Existen limitaciones en tiempo, $, material? • Seguir los principios básicos del DE de Replicación, Control Local y Aleatorización

  16. Principios del DE: Replicación • Aumenta Precisión y Potencia • No confundir fuentes de variación • Replicar más lo que varie más

  17. Principios del DE: Bloqueo • Si hay variabilidad por heterogeneidad de muestras se puede confundir el efecto de los tratamientos con otras fuentes. • Definir grupos homogeneos o “bloques” • Asignar tratamientos a bloques de forma Aleatoria y Balanceada • Block what you can. Randomize what you cannot.

  18. “To pool or not to pool” • Combinar el RNA de varias muestras en un “pool” • Hay diversas razones. Algunas correctas, otras no tanto • Alcanzar la mínima cantidad de RNA para hacer arrays  • Reducir la variabilidad  • Reducir el coste. • En todo caso debe hacerse correctamente • No sustituir varias muestras por un único pool. • No usarlo cuando interesa la variabilidad individual • Diseños apareados • Estudios predictivos No

  19. Ejemplo de “pooling” • Estudio con 12 individuos  12 arrays  Caro!!! • Opción 1: • Grupo A: 6 individuos  1 pool de 6  1 array • Grupo B: 6 individuos  1 pool de 6  1 array • Opción 2: • Grupo A: 12 individuos  4 pools de 3  4 arrays • Grupo B: 12 individuos  4 pools de 3  4 arrays • La opción dos puede ser más económica y de precisión similar al uso de 12 arrays, pero no es posible saberlo antes de hacer el experimento  8 arrays 8 arrays

  20. Del diseño al análisis • Una vez identificados • la variable –respuesta- de interés, • los factores que afectan a su variación, y la relación entre éstos, • las fuentes de heterogeneidad del proceso que se controlan mediante bloqueo. • Podemos plantear un modelo lineal que … • Relacione respuestas y fuentes de variabilidad. • Sirva de base para el análisis de datos (ANOVA) que generará las listas de genes que buscamos.

  21. Ejemplo de modelos • Estimulación por LPS • Perfiles de expresión en AML+/AML

  22. Resumiendo … • Todo el estudio pivota entorno al DE • El objetivo induce el diseño. • El DE permite identificar las causas de variabilidad y determina • Qué tipo de datos utilizar, • Cómo recoger las muestras, • Cómo procesarlas y • Cómo deben ser analizadas

  23. Y como dijo el maestro… To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps saywhat the experiment died of. Sir Ronald A. Fisher Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA

  24. Preprocesado de los datos

  25. Etapas del preprocesado • Desde las imágenes hasta los datos para el análisis • Exploración visual. • Control de calidad. • Normalización y filtrado.

  26. Exploración. Ej 1: LPS

  27. Exploración. Ej. 2: AML+8/AML

  28. Control de calidad. Ej. 1: LPS

  29. Control de calidad. Ej. 2: AML+8

  30. Normalización Preferred analysis methods for Affymetrix GeneChips …. Genome Biology 2005, 6:R16

  31. Análisis de datos

  32. El proceso de análisis estadístico • A partir de los datos normalizados y filtrados, • Basándose en el modelo definido en el diseño experimental, • Un Análisis de la Varianza (AOV) permite • seleccionar los genes asociados con cada una, • se manera separada para cada fuente de variabilidad incluída en el modelo.

  33. Los ajustes necesarios • El análisis de datos de microarrays tiene características particulares: • Hay pocas muestras  Puede haber mucha variabilidad espúrea. • Considerar métodos que regularicen la varianza • Se realizan cientos/miles de tests a la vez. • Es preciso realizar un ajuste de “multiple testing” si se quiere determinar la significación estadística.

  34. Problema(1):Estimación de varianza • ¿Podemos fiarnos simplemente de la diferencia de medias o el valor de un estadístico t? • El ejemplo sugiere que no. • Averages can be driven by outliers. Courtesy of Y.H. Yang

  35. ¿Es preciso regularizar la varianza? • Varianzas grandes pueden generar falsos negativos. • Varianzas pequeñas generarán falsos positivos. • t’s can be driven by tiny variances. Courtesy of Y.H. Yang

  36. Solución: Estadísticos “ad-hoc” SAM (Tibshirani, 2001) Regularized-t (Baldi, 2001) EB-moderated t (Smyth, 2003)

  37. Problema (2): “Múltiple testing” • Supongamos que vamos a hacer varios tests a la vez • Dos tests al 5%. La probabilidad de obtener un falso positivo es 1 – 0.95*0.95 = 0.0975 • Tres tests  1 – 0.953 =0.1426 • n tests  1 – 0.95n • Se acerca a 1 cuando aumenta el nº de tests • Un p-valor pequeño no indica significación  Si hacemos muchos tests no controlamos la probabilidad de error de tipo I

  38. Un ejemplo de simulación (1)

  39. Un ejemplo de simulación (2)

  40. Resumiendo Como se analizan los datos • A partir de la matriz de expresión. • Se ajusta el modelo lineal definido en el DE • Preferiblemente utilizando un método que realice regularización de la varianza. • Se obtiene la lista de genes y los valores de test de las comparaciones interesantes ordenada de menor a mayor p-valor • Y se ajustan los p-valores teniendo en cuenta el numero de comparaciones realizadas.

  41. Ejemplo LPS Genes cambiados entre LPS/Medium en ratones viejos

  42. Ejemplo AML8 Genes cambiados entre LPS/Medium en ratones viejos

  43. Las tres comparaciones a la vez (LPS)

  44. Las tres comparaciones (AML8)

  45. Soporte a la interpretación biólógicaAnálisis basado en la GO

  46. Referencias básicas

  47. Agradecimientos

More Related