550 likes | 741 Views
Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB). Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite. Objetivos. Análisis de Datos de Alto Rendimiento Tipos de datos y Tipos de estudios. Herramientas disponibles.
E N D
Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB) Análisis de datos de alto rendimientoCon ejemplos de Partek Genomics Suite
Objetivos • Análisis de Datos de Alto Rendimiento • Tipos de datos y Tipos de estudios. • Herramientas disponibles. • Análisis de datos de microarrays • El proceso de análisis • Estudios de expresión diferencial con Partek GS • Otros tipos de estudios
High troughput data • Muchas técnicas modernas permiten generar información simultánea sobre miles de componentes de un sistema: • High-troughput o de “alto rendimiento” • Por ejemplo • Microarrays (expresión, SNPs, exones,…). • Proteómica (Mass-Spectormetry). • Next Generation Sequencing • …
Análisis de datos de A.R. • Los datos de alto rendimiento, • con las herramientas y los métodos apropiados, • permiten llevar a cabo estudios que habrían sido impensables sin ellos. • Por ejemplo • Selección de genes • Busqueda de biomarcadores • Estudios de asociación genética • Detección de variantes víricas, etc.
Análisis de microarrays • Caso más conocido, “prototípico” de datos de A.R. • Tecnología madura (10 años) y diversificada (expresión, exones, tejidos, SNPs,….) • Con algunas limitaciones que las nuevas tecnologías podrán superar • EMPEZAREMOS por ellos.
Y muchos más tipos … • Time Course • Perfiles de expresión a lo largo del tiempo • Pathway Analysis-(Systems Biology) • Reconstrucción de redes metabólicas a partir de datos de expressión • Whole Genome, CGH, Alternative Splicing • Estudios con datos de distintos tipos • Fusión o Integración de datos
Programas de análisis de datos de genómica y protómica • Multitud de herramientas • Gratuítas / Comerciales [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] • Descargables / En-linea [R, BRB, MeV…] / [Gepas,…] • Aísladas / Parte de “suites” o de sitios [BRB, dChip] / [MeV (TM4), OntoTools] • A survey of free microarray data analysis tools: • http://chagall.med.cornell.edu/I2MT/MA-tools.pdf
Visión general del proceso (Affy) @Affymetrix
Workflow for a typical microarray experiment (1) Imágenes(Datos crudos) (2) C. de calidad (bajo nivel) (3) Preprocesado (4) Exploración de la Matriz de Expresión (5) Análisis (6) Significación Biológica
(1) Obtención de la imagen • Entra: Microarrays • Salen: • Imágenes (1/chip) • Ficheros (.CEL, .CHP) • Información para cada sonda individual • Datos para el análisis de bajo nivel • Control de calidad • Preprocesado • Sumarización … … 1.cel, 1.chp 2.cel, 2.chp
(2) Control de calidad de bajo nivel … • Entra: • Imágenes (.CEL) • Proceso • Diagnósticos y Control de calidad • Análisis basado en modelos (PLM) • Salen: • Gráficos • Estadísticos de Affymetrix 1.cel, 1.chp 2.cel, 2.chp
(3) Preprocesado … • Entra: • Fichero de Imagenes • Proceso • Eliminación de ruido • Normalización • Sumarización • Filtrado • Sale: • Matriz de expresión 1.cel, 1.chp 2.cel, 2.chp C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711
(4) Exploración C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra • Matriz de expresión • Proceso • PCA, Cluster, MDS • Representaciones en 2D/3D • Agrupaciones • Sale • Detectado efectos batch • Verificación calidad
(5) Análisis estadístico C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra: • Matriz expresión • Modelo de análisis • Proceso • t-tests, ANOVA • Ajustes de p-valores • Sale • Listas de genes • Fold change, p.values • Gráficos • Perfiles de expresión
(6) Significación biologica • Entra • Listas de genes • Proceso • GEA, GSEA, … • Sale: • Clases GO / Grupos de GenesPathwaysespecialmente representados
Caso 1 Comparación de perfiles de expresión en AML con trisomía 8 o citogenética normal
Descripción • PNAS, January 30, 2001 vol. 98 (3) • Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos. • No se dispone de información sobre el diseño experimental
Esquema del análisis • Datos para el análisis • 15 archivos .CEL (5 por grupo) • Control de calidad [Expression console] • Preprocesado [Partek] • Exploración [Partek] • ANOVA y selección de genes [Partek] • Significación Biológica [Partek]
2. Control de calidad (1) • Descargar Expression Console de la web de Affymetrix • affymetrix.com • Instalarlo • Iniciar • Seleccionar archivos .CEL • Create New Study • Download library files • Add Intensity Files
Probe cell intensity view: Examen de las imágenes Una por chip 2. Control de Calidad (2) • Box plot • Absolute intensity • Relative intensity
Correlation plots Pearson/Spearman Signal/detection-p 2. Control de Calidad (3) • Box plot • Absolute intensity • Relative intensity
Control de Calidad (y 4):Métricas de CdC % Presence Scale Factor
Análisis de los datos con Partek • La suite genómica de Partek permite analizar datos de expresión • Leer datos (.CELs o matriz de expresión) • Explorar los datos (PCA/Cluster/MDS) • Seleccionar los genes DE (ANOVA) • Construccion de predictores • Análisis de otros tipos de datos • Exon arrays, SNP arrays, Tiling, CGH …
Instalación de Partek • El IR dispone de una licencia flotante a la que puede conectarse un solo usuario cada vez. • Instalar el archivo • setupPGS.6.08.0623-64Release.exe • disponible en: \\servir3\recerca$Partek • Ejecutar el archivo Se instala el programa • Al iniciar el programa por 1ª vez pide • El tipo de licencia “Floating License” • Nombre del servidor “servir1”
(1) Seleccionar archivos .CEL • Seleccionar .CEL a importar • Pulsar
(3) Definir grupos y covariables (1) • A cada hoja de datos se le ha de asociar una lista de covariables • Grupo al que pertenece cada muestra • Informaciones clínicas, biométricas, etc • Puede prepararse a parte e importarlo o crearlo tras leer los datos. • http://www.partek.com/Tutorials/microarray/User_Guides/CreatingSampleInfoFile.pdf
(3) Definir covariables (y 2) • Tools Create Sample Info File • Seleccionar archivos CEL/CHP • Añadir las columnas necesarias • Definir el tipo de cada una • Tras llenar todas las columnas Save file (.txt) • Combinar datos y covariables Merge Spreadsheets • Grabar archivo resultante Save (format file, .fmt)
Análisis de datos • Para facilitar el proceso de análisis Workflows • Itinerario sugerido desde los datos hasta los resultados finales • Permite guardar y continuar en otro momento • Existe un workflow para cada tipo de datos
WF (2.1): QA/QC. PCA PCA • Visualizacion de los datos en 2D/3D • Permite detectar efectos “fuera del diseño o del modelo” • Cada eje explica un mayor % que el siguiente Atención a la variabilidad total!!!
WF (3) Detect differentially expressed genes (DEG) • Seleccionar la(s) variable(s) para las que se desea realizar la comparación[Los factores del ANOVA] • Definir las comparaciones entre grupos [Los contrastes a efectuar] • Ejecutar el análisis
WF (3.1) Selección de factores • Los factores representan las distintas fuentes de variación en los datos. • Deben definirse como variables categoricas o “factor” al crear el archivo de covariables
WF (3.2) Contrastes • Opción “Advanced” del dialogo ANOVA • Los contrastes indican que comparaciones concretas (entre niveles de un factor) se desea llevar a cabo. • Comparaciones individuales (Grupo 1-Grupo 2) o más complejas (Tr1+Tr2+Tr3)/3-Ctl
WF (3.3) Resultados • Para cada gen se obtiene los resultados de • Significación global • Significaciónn de cada contraste deseado • De cada comparación obtenemos los p-valores y estadísticos de test solicitados (por ejemplo Fold Change, T-test,…)
WF (3.3) Sources of variation • Como en todo ANOVA la variabilidad explicada debe ser mayor que el error. • Muy útil si hay más de 2 factores y uno es un efecto Batch.
WF (3.4) Multiple testing • Para evitar problemas de “multiple testing” podemos fijar un valor de tasa de falsos positivos (FDR). • Stat Multiple Test False Discovery Rate (FDR) • El programa generará una tabla con el número de genes que se considerarían diferencialmente expresados asociados a un valor dado de FDR.