1 / 55

Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite

Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB). Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite. Objetivos. Análisis de Datos de Alto Rendimiento Tipos de datos y Tipos de estudios. Herramientas disponibles.

ila-reed
Download Presentation

Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB) Análisis de datos de alto rendimientoCon ejemplos de Partek Genomics Suite

  2. Objetivos • Análisis de Datos de Alto Rendimiento • Tipos de datos y Tipos de estudios. • Herramientas disponibles. • Análisis de datos de microarrays • El proceso de análisis • Estudios de expresión diferencial con Partek GS • Otros tipos de estudios

  3. High troughput data • Muchas técnicas modernas permiten generar información simultánea sobre miles de componentes de un sistema: • High-troughput o de “alto rendimiento” • Por ejemplo • Microarrays (expresión, SNPs, exones,…). • Proteómica (Mass-Spectormetry). • Next Generation Sequencing • …

  4. Análisis de datos de A.R. • Los datos de alto rendimiento, • con las herramientas y los métodos apropiados, • permiten llevar a cabo estudios que habrían sido impensables sin ellos. • Por ejemplo • Selección de genes • Busqueda de biomarcadores • Estudios de asociación genética • Detección de variantes víricas, etc.

  5. Análisis de microarrays • Caso más conocido, “prototípico” de datos de A.R. • Tecnología madura (10 años) y diversificada (expresión, exones, tejidos, SNPs,….) • Con algunas limitaciones que las nuevas tecnologías podrán superar • EMPEZAREMOS por ellos.

  6. Tipos de estudios que se realizan usando microarrays de DNA

  7. (1): Class comparison

  8. (2): Class discovery

  9. (3): Class prediction

  10. Y muchos más tipos … • Time Course • Perfiles de expresión a lo largo del tiempo • Pathway Analysis-(Systems Biology) • Reconstrucción de redes metabólicas a partir de datos de expressión • Whole Genome, CGH, Alternative Splicing • Estudios con datos de distintos tipos • Fusión o Integración de datos

  11. Herramientas para el análisis

  12. Programas de análisis de datos de genómica y protómica • Multitud de herramientas • Gratuítas / Comerciales [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] • Descargables / En-linea [R, BRB, MeV…] / [Gepas,…] • Aísladas / Parte de “suites” o de sitios [BRB, dChip] / [MeV (TM4), OntoTools] • A survey of free microarray data analysis tools: • http://chagall.med.cornell.edu/I2MT/MA-tools.pdf

  13. Programas de análisis libres

  14. Programas de análisis comerciales

  15. Experimentos con microarrays

  16. Visión general del proceso (Affy) @Affymetrix

  17. Otra perspectiva general

  18. El proceso de análisis

  19. Workflow for a typical microarray experiment (1) Imágenes(Datos crudos) (2) C. de calidad (bajo nivel) (3) Preprocesado (4) Exploración de la Matriz de Expresión (5) Análisis (6) Significación Biológica

  20. (1) Obtención de la imagen • Entra: Microarrays • Salen: • Imágenes (1/chip) • Ficheros (.CEL, .CHP) • Información para cada sonda individual • Datos para el análisis de bajo nivel • Control de calidad • Preprocesado • Sumarización … … 1.cel, 1.chp 2.cel, 2.chp

  21. (2) Control de calidad de bajo nivel … • Entra: • Imágenes (.CEL) • Proceso • Diagnósticos y Control de calidad • Análisis basado en modelos (PLM) • Salen: • Gráficos • Estadísticos de Affymetrix 1.cel, 1.chp 2.cel, 2.chp

  22. (3) Preprocesado … • Entra: • Fichero de Imagenes • Proceso • Eliminación de ruido • Normalización • Sumarización • Filtrado • Sale: • Matriz de expresión 1.cel, 1.chp 2.cel, 2.chp C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711

  23. (4) Exploración C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra • Matriz de expresión • Proceso • PCA, Cluster, MDS • Representaciones en 2D/3D • Agrupaciones • Sale • Detectado efectos batch • Verificación calidad

  24. (5) Análisis estadístico C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Entra: • Matriz expresión • Modelo de análisis • Proceso • t-tests, ANOVA • Ajustes de p-valores • Sale • Listas de genes • Fold change, p.values • Gráficos • Perfiles de expresión

  25. (6) Significación biologica • Entra • Listas de genes • Proceso • GEA, GSEA, … • Sale: • Clases GO / Grupos de GenesPathwaysespecialmente representados

  26. Estudio de casos

  27. Caso 1 Comparación de perfiles de expresión en AML con trisomía 8 o citogenética normal

  28. Descripción • PNAS, January 30, 2001 vol. 98 (3) • Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos. • No se dispone de información sobre el diseño experimental

  29. Esquema del análisis • Datos para el análisis • 15 archivos .CEL (5 por grupo) • Control de calidad [Expression console] • Preprocesado [Partek] • Exploración [Partek] • ANOVA y selección de genes [Partek] • Significación Biológica [Partek]

  30. 2. Control de calidad (1) • Descargar Expression Console de la web de Affymetrix • affymetrix.com • Instalarlo • Iniciar • Seleccionar archivos .CEL • Create New Study • Download library files • Add Intensity Files

  31. Probe cell intensity view: Examen de las imágenes Una por chip 2. Control de Calidad (2) • Box plot • Absolute intensity • Relative intensity

  32. Correlation plots Pearson/Spearman Signal/detection-p 2. Control de Calidad (3) • Box plot • Absolute intensity • Relative intensity

  33. Control de Calidad (y 4):Métricas de CdC % Presence Scale Factor

  34. Análisis de los datos con Partek • La suite genómica de Partek permite analizar datos de expresión • Leer datos (.CELs o matriz de expresión) • Explorar los datos (PCA/Cluster/MDS) • Seleccionar los genes DE (ANOVA) • Construccion de predictores • Análisis de otros tipos de datos • Exon arrays, SNP arrays, Tiling, CGH …

  35. Instalación de Partek • El IR dispone de una licencia flotante a la que puede conectarse un solo usuario cada vez. • Instalar el archivo • setupPGS.6.08.0623-64Release.exe • disponible en: \\servir3\recerca$Partek • Ejecutar el archivo  Se instala el programa • Al iniciar el programa por 1ª vez pide • El tipo de licencia  “Floating License” • Nombre del servidor  “servir1”

  36. Lectura/Importación de los datos

  37. (1) Seleccionar archivos .CEL • Seleccionar .CEL a importar • Pulsar 

  38. (2) Definir parámetros importación

  39. (3) Definir grupos y covariables (1) • A cada hoja de datos se le ha de asociar una lista de covariables • Grupo al que pertenece cada muestra • Informaciones clínicas, biométricas, etc • Puede prepararse a parte e importarlo o crearlo tras leer los datos. • http://www.partek.com/Tutorials/microarray/User_Guides/CreatingSampleInfoFile.pdf

  40. (3) Definir covariables (y 2) • Tools  Create Sample Info File • Seleccionar archivos CEL/CHP • Añadir las columnas necesarias • Definir el tipo de cada una • Tras llenar todas las columnas  Save file (.txt) • Combinar datos y covariables  Merge Spreadsheets • Grabar archivo resultante  Save (format file, .fmt)

  41. Análisis de datos • Para facilitar el proceso de análisis  Workflows • Itinerario sugerido desde los datos hasta los resultados finales • Permite guardar y continuar en otro momento • Existe un workflow para cada tipo de datos

  42. Workflow (WF) de análisis de datos de expresión

  43. WF (2.1): QA/QC. PCA PCA • Visualizacion de los datos en 2D/3D • Permite detectar efectos “fuera del diseño o del modelo” • Cada eje explica un mayor % que el siguiente  Atención a la variabilidad total!!!

  44. WF (2.2): QA/QC. Histogram

  45. WF (3) Detect differentially expressed genes (DEG) • Seleccionar la(s) variable(s) para las que se desea realizar la comparación[Los factores del ANOVA] • Definir las comparaciones entre grupos [Los contrastes a efectuar] • Ejecutar el análisis

  46. WF (3.1) Selección de factores • Los factores representan las distintas fuentes de variación en los datos. • Deben definirse como variables categoricas o “factor” al crear el archivo de covariables

  47. WF (3.2) Contrastes • Opción “Advanced” del dialogo ANOVA • Los contrastes indican que comparaciones concretas (entre niveles de un factor) se desea llevar a cabo. • Comparaciones individuales (Grupo 1-Grupo 2) o más complejas (Tr1+Tr2+Tr3)/3-Ctl

  48. WF (3.3) Resultados • Para cada gen se obtiene los resultados de • Significación global • Significaciónn de cada contraste deseado • De cada comparación obtenemos los p-valores y estadísticos de test solicitados (por ejemplo Fold Change, T-test,…)

  49. WF (3.3) Sources of variation • Como en todo ANOVA la variabilidad explicada debe ser mayor que el error. • Muy útil si hay más de 2 factores y uno es un efecto Batch.

  50. WF (3.4) Multiple testing • Para evitar problemas de “multiple testing” podemos fijar un valor de tasa de falsos positivos (FDR). • Stat  Multiple Test  False Discovery Rate (FDR) • El programa generará una tabla con el número de genes que se considerarían diferencialmente expresados asociados a un valor dado de FDR.

More Related