1 / 99

¿Cómo analizar los datos crudos de microarrays?

¿Cómo analizar los datos crudos de microarrays?. ¿Cómo analizar los datos crudos de microarrays?. Guía práctica de análisis de datos de microarrays. Juan Pablo Fededa y Carlos Rocco. Análisis Exploratorio y Confirmatorio de Datos de Experimentos de Microarrays Primer Cuatrimestre 2006

palmer
Download Presentation

¿Cómo analizar los datos crudos de microarrays?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ¿Cómo analizar los datos crudos de microarrays? ¿Cómo analizar los datos crudos de microarrays? Guía práctica de análisis de datos de microarrays Juan Pablo Fededa y Carlos Rocco Análisis Exploratorio y Confirmatorio de Datos de Experimentos de Microarrays Primer Cuatrimestre 2006 Instituto de Cálculo y Departamento de Matemática. Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires

  2. IMPORTANTE: Esta es una guía acerca de cómo analizar los datos que se obtienen del scanneado de un microarray de dos colores. No contiene información acerca de cómo construir, ensayar, diseñar un experimento de y/ó scannear microarrays. El objetivo final es ayudar a un biólogo a que, a partir del dato original de scanneado de un microarray, obtenga una lista de genes diferencialmente expresados en las dos condiciones confrontadas. Tampoco se hablará de data mining y generación de patrones de comportamiento génico. El análisis de datos que promueve esta guía involucra el uso de R, un software libre de estadística sobre el cuál se fueron construyendo múltiples herramientas para analizar microarrays. Se asume que el lector tiene un background matemático básico y que entiende los conceptos fundamentales de la tecnología de microarrays.

  3. Microarrays…………… Fabricación de un microarray u$s Diseño del experimento Preparación de la muestra - hibridación FLUJO DE TRABAJO Scanning Análisis de datos - lista genes diferencialmente expresados Data mining – clustering

  4. Microarrays…………… Fabricación de un microarray Diseño del experimento Preparación de la muestra - hibridación FLUJO DE TRABAJO Scanning Análisis de datos - lista genes diferencialmente expresados Data mining – clustering(……..2007!!!!)

  5. Análisis de Datos de Microarrays Obtención de los datos crudos – Ingreso de los datos al R – carga de paquetes de análisis Gráficos de estado del microarray –toma de decisión ( sigo con el análisis o dejo? ) FLUJO DE TRABAJO Normalizaciónes Gráficos de normalización –toma de decisión ( sigo con el análisis, realizo otras normalizaciones, dejo? ) Identificación de genes diferencialmente expresados Gráficos y tablas de genes diferencialmente expresados

  6. Análisis de Datos de Microarrays Obtención de los datos crudos – Ingreso de los datos al R – carga de paquetes de análisis Gráficos de estado del microarray –toma de decisión ( sigo con el análisis o dejo? ) FLUJO DE TRABAJO Normalizaciónes R Gráficos de normalización –toma de decisión ( sigo con el análisis, realizo otras normalizaciones, dejo? ) Identificación de genes diferencialmente expresados Gráficos y tablas de genes diferencialmente expresados

  7. Obtención de R y paquetes de análisis Carga de paquetes de análisis Obtención de los datos crudos Ingreso de los datos al R

  8. -1: Obtener el software R !!!! dehttp://cran.r-project.org/

  9. -1: Obtener el software R !!!! dehttp://cran.r-project.org/

  10. -1: Obtener el software R !!!! dehttp://cran.r-project.org/

  11. 0: Obtener ( bajar) los siguientes paquetes de trabajo de R en http://www.bioconductor.org/packages/bioc/1.8/index.html: Affyaffyio, arrayQuality, Biobase, colorspace, convert, gridBase, hexbin, limma, marray, RColorBrewer, vsn

  12. Una vez hecho esto instalar el R y dentro de la consola del R instalar los paquetes bajados en archivos zip : NOTA: Se pueden actualizar e instalar desde R (en otra de las opciones de package).

  13. Una vez hecho esto instalar el R y dentro de la consola del R instalar los paquetes bajados en archivos zip :

  14. Una vez hecho esto instalar el R y dentro de la consola del R instalar los paquetes bajados en archivos zip :

  15. Antes que nada: vamos a trabajar escribiendo nuestras ordenes en un script, para lo cuál primero hay queabrirun script:

  16. Es más fácil trabajar con las ventanas de la consola y del script (Editor) en paralelo (tile):

  17. Entonces…..esto funciona escribiendo la orden en el script y luego se utiliza el botónrun line para correrla en la consola: SCRIPT CONSOLA NOTA:run line se puede hacer con F5.

  18. La orden se corre en la consola:

  19. Cargamos el paquetemarray para empezar a trabajar (al cargar marray se carga automaticamente limma )

  20. Obtención de R y paquetes de análisis Carga de paquetes de análisis Obtención de los datos crudos Ingreso de los datos al R

  21. OK; los microarrays sobre los cuáles vamos a trabajar como ejemplo corresponden al siguiente paper:

  22. A los datos originales los bajamos de la base de datos de microarrays de stanford:http://genome-www5.stanford.edu/

  23. Vamos a la carpeta SMD, en donde están los datos crudos:

  24. Particularmente vamos a analizar los datos de los microarrays correspondientes a los experimentos de inmunoprecipitación de PUMILIO en moscas adultas:

  25. Vamos a utilizar los datos originales del scanner (ORI DATA), en este caso son 4 experimentos de hibridación:exptID 52987, 53530, 54253 y 54596

  26. Utilizamos (bajamos) los archivos .gpr (genepix):

  27. NOTA:Diferentes scanners generan diferentes tipos de archivos con diferentes extensiones; los paquetes de análisis de datos que utilizaremos leen la mayoría de estas extensiones. Agilent genepix.custom Quantarray Arrayvision genepix.median Scanarrayexpress Bluefuse Imagene smd.old Genepix Smd Spot spot.close.open El procedimiento para ingresar estas files en R es el mismo que el que veremos a continuación.

  28. Obtención de R y paquetes de análisis Carga de paquetes de análisis Obtención de los datos crudos Ingreso de los datos al R

  29. Volviendo a R, cambiamos de directorio en el cuál están nuestros archivos originales salidos del scanner (ej.: .gpr para genepix):

  30. Cambiamos de directorio en el cuál están nuestros archivos originales salidos del scanner (ej.: .gpr para genepix):

  31. Cambiamos de directorio en el cuál están nuestros archivos originales salidos del scanner (ej.: .gpr para genepix):

  32. Empezamos a trabajar en R: dirección.experimentospumilio <-"D://juan//análisis exploratorio y confirmatorio de experimentos de microarrays//curso microarrays//pumilio//Experiment Sets Name Organism Type Created By Options“ Esta es la otra opción para indicar la carpeta en donde están nuestros datos (Por defecto lee en la carpeta de trabajo). setwd(dirección.experimentospumilio) R va a leer los datos desde esta dirección seteada. archivosexperimentospumilio <- c("52987.gpr", "53530.gpr", "54253.gpr", "54596.gpr") Generamos un objeto marrayRaw con los archivos de los arrays que vamos a analizar. crudosexperimentospumilio<-read.GenePix(archivosexperimentospumilio) Generamos un objeto que NO ignore las estimaciones de las intensidades del background para los canales verde ( G ) y rojo ( R ). crudosexperimentospumilio2<-read.GenePix(archivosexperimentospumilio, name.Gb= NULL, name.Rb= NULL) Generamos un objeto que ignore las estimaciones de las intensidades del background para los canales verde ( G ) y rojo ( R ) fijando el valor NULL para los argumentos name.Gb y name.Rb.

  33. Estructura de los datos que estamos analizando en el paquetemarray: etceteras Gb (background Cy3) slots Rb (background Cy5) Gf (foreground Cy3) microarreglos Rf (foreground Cy5) genes

  34. summary(crudosexperimentospumilio) Nos muestra un resumen de las características del objetocrudosexperimentospumilioque generamos: Son datos sin normalizar, es clase marray, contiene los datos de los 4 microarrays 17664 spots organizados en 8 filas x 4 columnas de subconjuntos ( grids ), cada grid contiene 23 filas x 24 columnas de spots

  35. slotNames (crudosexperimentospumilio) Nos muestra la estructura de slots del objetocrudosexperimentopumilio. slotNames (crudosexperimentospumilio2) Nos muestra la estructura de slots del objetocrudosexperimentopumilio2. Ambos objetos (crudosexperimentospumilio, crudosexperimentospumilio2) tienen la misma estructura de slots. Los primeros 5 ("maRf" "maGf" "maRb" "maGb" "maW“) son las matrices que contienen la información cuantitativa básica extraída de los archivos .gpr. Los demás están asociados con los archivos de la estructura de los arreglos (layout) y las anotaciones.

  36. crudosexperimentospumilio@maRf Objeto con las intensidades del foreground para el canal rojo. crudosexperimentospumilio@maRb Objeto con las intensidades del background para el canal rojo. crudosexperimentospumilio@maGf Objeto con las intensidades del foreground para el canal verde. crudosexperimentospumilio@maGb Objeto con las intensidades del background para el canal verde. crudosexperimentospumilio@maLayout Objeto con la estructura o geometría del arreglo. crudosexperimentospumilio@maGnames Objeto con los nombres de los genes. crudosexperimentospumilio@maTargets Objeto con información acerca de que muestras fueron hibridadas en cada arreglo.

  37. crudosexperimentospumilio@maGf[1:5,] Generamos un objeto con las intensidades del foreground para el canal verde para las 5 primeras filas (genes) para todos los microarrays En este caso el microarray de la columna 1 es52987 [1:5, 1 ] microarrays Recuerden la estructura de datos de marray!!! genes

  38. Existen métodos específicos para objetos de la clase marrayRaw (comocrudosexperimentospumilio), que luego se utilizaran para tomar decisiones acerca de los datos analizados: • maA: matriz de log2 de intensidades (con corrección por background) • maM: matriz de log2 de cocientes (con corrección por background) • maLR: matriz de log2 de ( intensidades - background) para el canal rojo • maLG: matriz de log2 de ( intensidades - background) para el canal verde • LR = log2 ( Rf -Rb ) • LG =log2 ( Gf - Gb ) • A = 0.5 x ( LR + LG ) • M= LR - LG

  39. Los datos se transforman aplicando log2 para que las intensidades se distribuyan en forma aproximadamente simétrica. Esto mejora la visualización gráfica de los datos. También se intenta que se reduzca la relación entre la intensidad y la varianza que aparece cuando se realizan experimentos con replicaciones. La mayoría de los paquetes de análisis de microarrays utilizan log2 .

  40. Gráficos espacialesdel estado del microarray

  41. valores altos de M (cy5 > cy3) image(crudosexperimentospumilio[,1], xvar="maM“) Generamos un gráfico de los valores de M del primer microarray ( [ ,1 ] ) decrudosexperimentospumilio: valores bajos de M (cy5 < cy3)

  42. valores altos de background en el canal rojo valores bajos de background en el canal rojo image(crudosexperimentospumilio[,1], xvar="maRb“) Generamos un gráfico de los valores del background para el canal rojo del primer microarray ( [ ,1 ] ) decrudosexperimentospumilio:

  43. par(mfrow=c(2,2)) Generamos un espacio gráfico de 2 x 2 gráficos. image (crudosexperimentospumilio[,1], xvar="maSpotCol", bar=FALSE) Generamos un gráfico del vector columna para cada spot en el primer microarray ( [ ,1 ] ) decrudosexperimentospumilio ( bar=FALSE : para que no dibuje la barra de colores). image (crudosexperimentospumilio[,1], xvar="maPrintTip", bar=FALSE) Generamos un gráfico del vector print-tip para cada spot en el primer microarray ( [ ,1 ] ) decrudosexperimentospumilio image (crudosexperimentospumilio[,1], xvar="maControls", col=heat.colors(10), bar=FALSE) Generamos un gráfico espacial que indica en donde se encuentran los spots control en el primer array de ( [ ,1 ] ) decrudosexperimentospumilio, indicados en rojo image (crudosexperimentospumilio[,1], xvar="maPlate", bar=FALSE) Generamos un gráfico de los valores de M del primer microarray ( [ ,1 ] ) decrudosexperimentospumilio

  44. boxplot(crudosexperimentospumilio[,1], xvar = "maPrintTip", yvar = "maM",main="arreglo 52987.gpr") Podemos generar un gráfico boxplot que nos muestre cómo varía M en función del print-tip para el primer microarray ( [ ,1 ] ) decrudosexperimentospumilio:

  45. boxplot(crudosexperimentospumilio,yvar="maM") Podemos generar un gráfico boxplot que nos muestre cómo varía M en función del array paracrudosexperimentospumilio:

  46. library (arrayQuality) Cargamos el paquete arrayQuality . maQualityPlots(crudosexperimentospumilio [,1]) Generamos un gráfico maQualityPlots para evaluar a priori la calidad delmicroarray:

  47. 1. MA-plot de los datos crudos sin sustracción de background. Cada línea coloreada representa la curva loess para cada grupo de print-tip. Estas curvas representan que cantidad de normalización se deberá realizar a cada grupo de datos. Mientras más separadas las curvas de la línea 0 de M, mayor normalización será necesaria. Mientras mayor la normalización necesaria, menor la calidad del experimento.

  48. 2. MA-plot usando el paquete hexbin que destaca la densidad de puntos, de los datos normalizados; amarillo = alta densidad de puntos, azul = baja densidad. Este diagrama nos indica como quedó la normalización por grupo de print-tip (default).

More Related