170 likes | 432 Views
A plicaciones de D ata M ining en c iencia y t e cnología Bioinformática. Estudios de expresión génica con microarrays. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN. Expresión diferencial de genes frente a dos tratamientos. …. …. gen 1. gen 1. gen 2. gen 2.
E N D
Aplicaciones de Data Mining en ciencia y tecnología Bioinformática Estudios de expresión génica con microarrays Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Expresión diferencial de genes frente a dos tratamientos … … gen 1 gen 1 gen 2 gen 2 gen 3 gen 3 gen 4 gen 4 gen n gen n … Tratamiento 1 Tratamiento 2 Comparación tratamiento 1 vs. tratamiento 2 Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Utilizando microarrays se puede analizar la expresión relativa de miles de genes simultáneamente Una animación sobre experimentos con microarrays: http://www.bio.davidson.edu/Courses/genomics/chip/chip.html Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Puntos importantes (1/2) Un microarray es un soporte sólido, por ejemplo, un vidrio de 8 x 2,5 cm. Sobre el soporte se diseña una grilla, con tantos números de celdas como genes se van a analizar, más duplicados y controles Sobre cada celda de la grilla se pegan moléculas de ADN complementarias del gen a analizar Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Puntos importantes (2/2) Se realizan los experimentos, se extrae ARNm y después de varios pasos químicos, se agrega el material procesado a los microarrays Se escanea el microarray iluminando con uno o dos láseres de diferentes colores, se procesan las imágenes Se extraen los datos de expresión de la imágen Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Experimentos con microarrays. Esquema de trabajo hipótesis diseño experimental experimento análisis de imágenes pre-procesamiento normalización estimación filtrado agrupamiento análisis enriquecimiento funcional análisis de vias metabólicas integración de los datos Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
procesamiento de imágenes Los spots se distribuyen en grillas, cada grilla se corresponde con uno de los probes (o genes) a analizar. A veces las grillas no están bien alineadas entre sí. Puede haber curvaturas dentro de una grilla El espaciado entre los spots puede ser desigual un microarray escaneado Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
procesamiento de imágenes Cualquiera sea el tipo de microarray que utilicemos, tenemos que convertir los pixels de la imagen escaneada del microarray en información de expresión escaneado (uno o dos canales) manipulación del contraste estimación preliminar de los centros de los spots eliminar artefactos determinar la localización precisa del spot determinar la forma y tamaño del spot estimar el background Dependiendo del tipo de microarray y de la plataforma, esto proceso puede ser más o menos automatizado Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Estrategia de un experimento con un microarray de cDNA El análisis de expresión con un chip de Affymetrix Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización Es una colección de métodos para tratar con los errores sistemáticos y los sesgos introducidos por la plataforma experimental utilizada • Etapas • Limpieza de los datos y transformación • Normalización dentro del array (para arrays de 2 canales) • Normalización entre arrays Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización • 1. Limpieza de los datos y transformación • Remover spots marcados en el paso anterior • Sustracción del background • Aplicar logaritmos Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización 2. Normalización dentro del array (para arrays de 2 canales) Posibles problemas: • Las marcas con Cy3 y Cy5 se incorporan diferencialmente • Los fluorógenos pueden tener diferentes respuestas de emisión a diferentes abundancias • Las emisiones pueden ser medidas diferencialmente a distintas intensidades • Problemas de enfoque Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización • Soluciones (1/2): • Regresión lineal de Cy5 contra Cy3: • Graficar los logaritmos de las intensidades • Ajustar una recta de regresión • Reemplazar los valores de Cy3 con los valores ajustados Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización • Soluciones (2/2): • Gráficos MA • Graficar para cada spot en el eje x el promedio de los logaritmos de Cy3 y Cy5. Y en el eje y la diferencia entre los logaritmos de los dos canales. • Ajustar una recta de regresión • Recalcular la diferencia de logaritmos restando el valor ajustado a la diferencia cruda • Regresión no-lineal de las diferencias de logaritmos (Regresión Loess) • Realizar un gráfico MA • Aplicar la regresión Loess • Recalcular la diferencia de logaritmos restando el valor ajustado a la diferencia cruda Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización A veces es necesario corregir diferencias de intensidad que varían espacialmente sobre el microarray, en ese caso se pueden aplicar regresiones Loess bidimensionales La causa de esto son las diferencias entre bloques de spots Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización 3. Normalización entre arrays Antes de hacer comparaciones entre distintos microarrays tenemos que analizar y eliminar las diferencias entre arrays debidas, por ejemplo, a diferencias entre las reacciones de hibridación que ocurrieron en cada uno. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
normalización • Soluciones • Realizar un gráfico Box-Plot conjunto para todos los arrays del experimento, para ver diferencias en variabilidad y en valores medios. • Asumiendo que las diferencias no tienen origen biológico se puede: • Escalar los datos: restarle a cada valor de logaritmos (o log-ratio), la media de su microarrray. • Centrarlos: restar la media y dividir por el desvío estándar • Normalizar la distribución: 1) ordenar los datos por array de mayor a menor. 2) calcular una nueva distribución, el primer dato es el promedio de los más altos; el segundo, el promedio de los segundos más altos, y así sucesivamente.3) Reemplazar cada medida en cada array con el promedio de la distribución calculada en 3). Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN