Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite

Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB) Análisis de datos de alto rendimientoCon ejemplos de Partek Genomics Suite

Objetivos • Análisis de Datos de Alto Rendimiento • Tipos de datos y Tipos de estudios. • Herramientas disponibles. • Análisis de datos de microarrays • El proceso de análisis • Estudios de expresión diferencial con Partek GS • Otros tipos de estudios

High troughput data • Muchas técnicas modernas permiten generar información simultánea sobre miles de componentes de un sistema: • High-troughput o de “alto rendimiento” • Por ejemplo • Microarrays (expresión, SNPs, exones,…). • Proteómica (Mass-Spectormetry). • Next Generation Sequencing • …

Análisis de datos de A.R. • Los datos de alto rendimiento, • con las herramientas y los métodos apropiados, • permiten llevar a cabo estudios que habrían sido impensables sin ellos. • Por ejemplo • Selección de genes • Busqueda de biomarcadores • Estudios de asociación genética • Detección de variantes víricas, etc.

Análisis de microarrays • Caso más conocido, “prototípico” de datos de A.R. • Tecnología madura (10 años) y diversificada (expresión, exones, tejidos, SNPs,….) • Con algunas limitaciones que las nuevas tecnologías podrán superar • EMPEZAREMOS por ellos.

Tipos de estudios que se realizan usando microarrays de DNA

(1): Class comparison

(2): Class discovery

(3): Class prediction

Y muchos más tipos … • Time Course • Perfiles de expresión a lo largo del tiempo • Pathway Analysis-(Systems Biology) • Reconstrucción de redes metabólicas a partir de datos de expressión • Whole Genome, CGH, Alternative Splicing • Estudios con datos de distintos tipos • Fusión o Integración de datos

Herramientas para el análisis

Programas de análisis de datos de genómica y protómica • Multitud de herramientas • Gratuítas / Comerciales [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] • Descargables / En-linea [R, BRB, MeV…] / [Gepas,…] • Aísladas / Parte de “suites” o de sitios [BRB, dChip] / [MeV (TM4), OntoTools] • A survey of free microarray data analysis tools: • http://chagall.med.cornell.edu/I2MT/MA-tools.pdf

Programas de análisis libres

Programas de análisis comerciales

Experimentos con microarrays

Visión general del proceso (Affy) @Affymetrix

Otra perspectiva general

El proceso de análisis

Workflow for a typical microarray experiment (1) Imágenes(Datos crudos) (2) C. de calidad (bajo nivel) (3) Preprocesado (4) Exploración de la Matriz de Expresión (5) Análisis (6) Significación Biológica

(1) Obtención de la imagen • Entra: Microarrays • Salen: • Imágenes (1/chip) • Ficheros (.CEL, .CHP) • Información para cada sonda individual • Datos para el análisis de bajo nivel • Control de calidad • Preprocesado • Sumarización … … 1.cel, 1.chp 2.cel, 2.chp

(2) Control de calidad de bajo nivel … • Entra: • Imágenes (.CEL) • Proceso • Diagnósticos y Control de calidad • Análisis basado en modelos (PLM) • Salen: • Gráficos • Estadísticos de Affymetrix 1.cel, 1.chp 2.cel, 2.chp

(3) Preprocesado … • Entra: • Fichero de Imagenes • Proceso • Eliminación de ruido • Normalización • Sumarización • Filtrado • Sale: • Matriz de expresión 1.cel, 1.chp 2.cel, 2.chp C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711

(4) Exploración C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra • Matriz de expresión • Proceso • PCA, Cluster, MDS • Representaciones en 2D/3D • Agrupaciones • Sale • Detectado efectos batch • Verificación calidad

(5) Análisis estadístico C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra: • Matriz expresión • Modelo de análisis • Proceso • t-tests, ANOVA • Ajustes de p-valores • Sale • Listas de genes • Fold change, p.values • Gráficos • Perfiles de expresión

(6) Significación biologica • Entra • Listas de genes • Proceso • GEA, GSEA, … • Sale: • Clases GO / Grupos de GenesPathwaysespecialmente representados

Estudio de casos

Caso 1 Comparación de perfiles de expresión en AML con trisomía 8 o citogenética normal

Descripción • PNAS, January 30, 2001 vol. 98 (3) • Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos. • No se dispone de información sobre el diseño experimental

Esquema del análisis • Datos para el análisis • 15 archivos .CEL (5 por grupo) • Control de calidad [Expression console] • Preprocesado [Partek] • Exploración [Partek] • ANOVA y selección de genes [Partek] • Significación Biológica [Partek]

2. Control de calidad (1) • Descargar Expression Console de la web de Affymetrix • affymetrix.com • Instalarlo • Iniciar • Seleccionar archivos .CEL • Create New Study • Download library files • Add Intensity Files

Probe cell intensity view: Examen de las imágenes Una por chip 2. Control de Calidad (2) • Box plot • Absolute intensity • Relative intensity

Correlation plots Pearson/Spearman Signal/detection-p 2. Control de Calidad (3) • Box plot • Absolute intensity • Relative intensity

Control de Calidad (y 4):Métricas de CdC % Presence Scale Factor

Análisis de los datos con Partek • La suite genómica de Partek permite analizar datos de expresión • Leer datos (.CELs o matriz de expresión) • Explorar los datos (PCA/Cluster/MDS) • Seleccionar los genes DE (ANOVA) • Construccion de predictores • Análisis de otros tipos de datos • Exon arrays, SNP arrays, Tiling, CGH …

Instalación de Partek • El IR dispone de una licencia flotante a la que puede conectarse un solo usuario cada vez. • Instalar el archivo • setupPGS.6.08.0623-64Release.exe • disponible en: \\servir3\recerca$Partek • Ejecutar el archivo  Se instala el programa • Al iniciar el programa por 1ª vez pide • El tipo de licencia  “Floating License” • Nombre del servidor  “servir1”

Lectura/Importación de los datos

(1) Seleccionar archivos .CEL • Seleccionar .CEL a importar • Pulsar 

(2) Definir parámetros importación

(3) Definir grupos y covariables (1) • A cada hoja de datos se le ha de asociar una lista de covariables • Grupo al que pertenece cada muestra • Informaciones clínicas, biométricas, etc • Puede prepararse a parte e importarlo o crearlo tras leer los datos. • http://www.partek.com/Tutorials/microarray/User_Guides/CreatingSampleInfoFile.pdf

(3) Definir covariables (y 2) • Tools  Create Sample Info File • Seleccionar archivos CEL/CHP • Añadir las columnas necesarias • Definir el tipo de cada una • Tras llenar todas las columnas  Save file (.txt) • Combinar datos y covariables  Merge Spreadsheets • Grabar archivo resultante  Save (format file, .fmt)

Análisis de datos • Para facilitar el proceso de análisis  Workflows • Itinerario sugerido desde los datos hasta los resultados finales • Permite guardar y continuar en otro momento • Existe un workflow para cada tipo de datos

Workflow (WF) de análisis de datos de expresión

WF (2.1): QA/QC. PCA PCA • Visualizacion de los datos en 2D/3D • Permite detectar efectos “fuera del diseño o del modelo” • Cada eje explica un mayor % que el siguiente  Atención a la variabilidad total!!!

WF (2.2): QA/QC. Histogram

WF (3) Detect differentially expressed genes (DEG) • Seleccionar la(s) variable(s) para las que se desea realizar la comparación[Los factores del ANOVA] • Definir las comparaciones entre grupos [Los contrastes a efectuar] • Ejecutar el análisis

WF (3.1) Selección de factores • Los factores representan las distintas fuentes de variación en los datos. • Deben definirse como variables categoricas o “factor” al crear el archivo de covariables

WF (3.2) Contrastes • Opción “Advanced” del dialogo ANOVA • Los contrastes indican que comparaciones concretas (entre niveles de un factor) se desea llevar a cabo. • Comparaciones individuales (Grupo 1-Grupo 2) o más complejas (Tr1+Tr2+Tr3)/3-Ctl

WF (3.3) Resultados • Para cada gen se obtiene los resultados de • Significación global • Significaciónn de cada contraste deseado • De cada comparación obtenemos los p-valores y estadísticos de test solicitados (por ejemplo Fold Change, T-test,…)

WF (3.3) Sources of variation • Como en todo ANOVA la variabilidad explicada debe ser mayor que el error. • Muy útil si hay más de 2 factores y uno es un efecto Batch.

WF (3.4) Multiple testing • Para evitar problemas de “multiple testing” podemos fijar un valor de tasa de falsos positivos (FDR). • Stat  Multiple Test  False Discovery Rate (FDR) • El programa generará una tabla con el número de genes que se considerarían diferencialmente expresados asociados a un valor dado de FDR.

Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite

Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite

Presentation Transcript

GRUPOS DE ALTO RENDIMIENTO ACADÉMICO

IMPLEMENTATION OF e-PROCUREMENT IN CSIR

Centro Ten stico Regional de Alto Rendimiento

Introducci n a las T cnicas de Programaci n con MatLab

Why genomics?

An lisis de Correspondencias

Retrato Robot

KDD y Técnicas de Minería de Datos en Weka

Introduciendo Sky Fi Adaptador Inalambrico

Ejemplos de uso de Bases de Datos Orientadas a Objetos en la Industria.

Componentes de Rendimiento

Tasa de rendimiento mínima aceptable

Invited Speakers: Joel Richter ( Umass - USA) Luiz O. Penalva (UTHSCSA - USA)

Ejemplos de Grafos:

INTRODUCCIÓN

Regulatory Genomics Lab

Rendimiento de su inversión e innovaciones tecnológicas en maquinaria pesada

Las partes de un Término Algebraico Scherzer

Centro de Alto Rendimiento

Retrato Robot

Introducción

Tasa de rendimiento mínima aceptable