770 likes | 1.03k Views
Anàlisi de microarrays de DNA. Curs de Bioinformàtica Universitat Pompeu Fabra 4t curs de Llicenciatura en Ciències Experimentals i de la Salut 27/02/06 Lauro Sumoy Laboratori de Microarrays Centre de Regulació Genòmica lauro.sumoy@crg.es. Continguts. Introducció als microarrays
E N D
Anàlisi de microarrays de DNA Curs de Bioinformàtica Universitat Pompeu Fabra 4t curs de Llicenciatura en Ciències Experimentals i de la Salut 27/02/06 Lauro Sumoy Laboratori de Microarrays Centre de Regulació Genòmica lauro.sumoy@crg.es
Continguts • Introducció als microarrays • Aplicacions dels microarrays • Comparació de dues mostres • Comparació entre múltiples mostres • Comparació de classes i predicció de classes • Us de bioinformàtica aplicats als microarrays • Adquisició i anàlisi de imatges • Processat de dades • Filtrat de intensitat i qualitat • Normalització intraxip • Anàlisi estadístic emprant rèpliques • Agrupament i clustering • Eines bioinformàtiques
Introducció: Què són els microarrays? • Microarray (micromatriu, bioxip): col.lecció de biomolècules ordenades ortogonalment sobre un suport sòlid miniaturitzat • Alta densitat • Permeten estudis a escala genomica • Apliquen noves eines per a anàlisi massiu de dades: • bioinformàtica • estadística
DNA depositat per impressió sobre vidre Tipus de tecnologia: agulles, plumilles o ink jet Producte imprès: Producte de PCR primers de vector (cDNA, clons de genòmic) RAPD primers (RAPD-PCR, differential display) primers específics de seqüència (genòmic) linker-primers (ligation mediated-PCR de BACs) Clons directament (cDNA, cosmidi, BAC) Oligonucleòtids (25 a 80nt) Altres possibilitats de impressió: Cèl.lules transfectades Proteïnes (anticòs, receptors, lisats de llibreries déxpressió, etc)
Microarrays impresos cDNA microarrays 5’ mRNA 3’ Single cDNA probe Vector PCR primers cDNA clone PCR amplification purification Long oligonucleotide microarrays One cDNA probe per gene Derived by PCR amplification Size: 500-2000 bp (double stranded) 5’ 3’ mRNA Direct spotting (no need for amplification) Single oligonucleotide probe One oligo probe per gene Derived by chemical synthesis Size: 35-70 nt (single stranded)
Arrays d’alta densitat Necessiten escaner de més alta resolució 5’ mRNA 3’ DNA probe sequence ATGAGCTGTACCAATGCCAACCTGG PM ATGAGCTGTACCTATGCCAACCTGG MM Perfect Match – MisMatch 11-20 parells d’oligonucleòtids per trànscrit gènic Mida de sonda: 25 nt (cadena senzilla) PM MM Microarrays sintetitzats in situ: Affymetrix DNA chip
2 colors 1 color(cDNA) (Affymetrix) RNA Reference Reference Test Test sample extraction sample sample sample sample RNA RNA extraction extraction mRNA Reverse transcription cDNA-T7 mRNA mRNA In vitro Reverse Reverse Biotin-UTP Cy5 Cy5 - - dCTP Cy3 Cy3 - - dCTP transcription transcription transcription Phycoetrythrin -streptavidin Biotin-cRNA cDNA cDNA - - Cy3 Cy3 cDNA cDNA - - Cy5 Cy5 Non-competitive Competitive Competitive nucleic acid nucleic acid nucleic acid Fluorescent Fluorescent hybridization co co - - hybridization hybridization detection detection cDNA or long oligo microarray High density oligonucleotide array
Aplicacions descrites per a microarrays: • cDNA: Determinació de perfils d’expressió d’mRNA • Transcriptoma codificant (mRNA) • Transcriptoma total (RNA total) • Proteoma (RNA en polisomes) • Taxa de transcripció in vivo (Run-on) • Splicing alternatiu (mRNA sobre sondes d’exons) • Localització cel.lular (mRNA de fraccions cel.lulars) • Fase cicle cel.lular (mRNA de c’el.lules sincronitzades) • Genòmic: Determinació de canvis al DNA • Canvis de dosi gènica / reordenaments (≈CGH) • Regions reguladores (precipitació de cromatina, factors de transcripció, etc.) • Oligonucleòtids: Determinació de canvis a nivell nucleotidic • Detecció de mutacions, polimorfismes (SNPs), -també expressió, etc
Necessitat d’eines bioinformàtiques • Selecció de sondes: anàlisi de seqüències • Dades digitalitzades • Quantificables • Computables • Alt nombre de punts: • Automatització • Miniaturització • Gran quantitat de informació acumulada • Seqüències • Publicacions • Sofisticació dels clínics i experimentals
Aplicacions específiques per al processament dels microarrays • Anàlisi i quantificació de imatges • Definició d’àrees de senyal • Subtracció de background • Normalització del senyal d’un experiment • Anàlisi de significació • Normalització entre experiments • Agrupació de gens i d’experiments • Extracció de dades (data mining)
Microarraysde 2 colorsper a estudisd’expressió Reference Reference Test Test sample sample sample sample RNA RNA extraction extraction mRNA mRNA Reverse Reverse Cy5 Cy5 - - dCTP Cy3 Cy3 - - dCTP transcription transcription cDNA cDNA - - Cy3 Cy3 cDNA cDNA - - Cy5 Cy5 Competitive Competitive nucleic acid nucleic acid co co - - hybridization hybridization Fluorescent cDNA microarray cDNA microarray detection
Principi del mètode de hibridació sobre microarrays (≈Northern) • Deposició o síntesi localitzada de biomolècules no marcades (sondes fredes o dianes) en ‘spots’ o taques homogènies • Hibridació / reconeixement específic amb mostres marcades amb fluorescència o radioactivitat • Rentat de producte que no s’ha unit específicament • Detecció quantitativa de producte unit
Factors a considerar en el disseny d’experiments amb microarrays • Seguiment dels punts: anotació de mostres • Eficiència de marcatge de mostres • Orientació de la matriu • Controls de normalització • Nº de rèpliques • Estandardització per a bases de dades de resultats d’experiments de microarrays
Generació d’imatges • Col.lecció d’emissió fluorescent per fotomultiplicador genera corrent electric • Conversor analògic a digital dona valor numèric - el nombre de comptes analògic digitals (A/D) • Resultat: assigna valors de 0 a 65535 per a cada pixel (1 pixel = 5-10 um de imatge .tif 16 bits) • Generació de imatge (256 colors o tons de l’escala de grisos)
Com s’analitzen les imatges de fluorescència? Cy5 > Cy3 Cy5 = Cy3 Cy5 < Cy3
Senyal de hibridació Imatges de cada canal: intensitats representades en color fals Cy3 Cy5 Solapament de les imatges: ratio representat com a color fals
Mesures derivades de microarrays • Intensitat total • Intensitat per pixel • Mitjana • Mediana • Desviació standard de intensitats • Desviació standard de background • Desviació standard de intensitats (en rèpliques) • etc. Taula
Quantificació del senyal Ratio representat en color fals Dades quantificades en forma de taula
Algoritmes de software d’anàlisi d’imatges: Cerca de taques • Cerca de pixel central • Creació de caixa delimitant de la taca • Suma de intensitat de tots els pixels • Iteracions per trobar valor màxim • Taca centrada al centre de la caixa òptima (de intensitat màxima)
Algoritmes de software d’anàlisi d’imatges: background • Determinació dels pixels corresponents al background (senyal de fons) • Centra-se en pixels de intensitat inferior a 5100 comptes analògic-digitals • Càlcul de la intensitat més frequent • Estimació de la desviació estandard (SD) de les intensitats de background (assumeix distribució Gaussiana)
Algoritmes de software d’anàlisi d’imatges: senyal • Determinació dels pixels corresponents al senyal real • Centrar-se en pixels de intensitat superiors al llindar de comptes analògic-digitals: • Senyal llindar = background + 3 * SD • Dona intensitat com el valor al percentil 75 de intensitats en els pixels de la taca
Pas 1: Substracció de background • Cal fer una substracció a nivell local • La manera de definir el background pot afectar ls valors per a dades de baixa intensitat de senyal
Rèplica biològica 1 Rèplica biològica 2 Rèplica biològica 3 Exemple: comparació dues condicions 1 3 5 2 4 6 A A’ A’’ • Nº de mesures: • Per cada element (o ‘spot’): • Cercle of ~15 pixels de diàmetre (200 pixels) • Mesures a cada spot: • Mitja del senyal real -‘foreground’ (FG) • Mediana del senyal de fons - ‘background’ (BG) • (6 arrays) X (2 spots/array) • = 12 punts de dades B B’ B’’ BG FG Spots duplicats
Pas 2: Normalització interna (entre spots d’un microarray) • Correcció de diferències entre les intensitats de senyal dels dos canals degudes a: • Quantitat inicial de mostra • Aspectes qualitatius (classes d’RNA) • Degradació parcial • Eficiència de marcatge fluorescent • Eficiència a la detecció de fluorescència • Variació de incroporació deguda a seqüència gènica • Variació entre pins d’impressió • No uniformitat del vidre o substrat
Mètodes de normalització • Mètodes de regressió • Regressió linial (sobre simplificació) • Mètodes de regressió lineal robusta local (lowess) • Mètodes de regressió no linial • Estimació estadística dels valors no canviants (ratio statistics), i de llindars d’expressió significativament diferencial • Ranking • Bayesians • Es essencial tenir rèpliques per poder fer tractaments estadístics!!!
Opcions de normalització • Valor relatiu respecte a intensitat total • Ajust per regressió • Del senyal global (Si hi ha més de 103 punts) • Asumeix: majoria de gens no canvia, nombre similar de gens puja i baixa • Tots els spots • Només spots filtrats de bona qualitat (preferible) • De senyal de gens de referència (amb menys de 103 punts) • Si a l’experiment no es pot assumir que la majoria de gens no varia o si hi ha activació o repressió general de la transcripció (molts gens pujen o molts gens baixen) • Controls interns: gens housekeeping • Controls externs: spiked-in controls (gens artificials)
Data analysis pipeline ‘NORMALIZATION’ Data from image analysis Filter bad data Calculate average within genes Calculate logratios Check linearity Linear Non-linear Median centralization Lowess centralization Number of conditions compared 2 >2 Replicates Replicates no yes no yes Gene lists Expression change Gene lists T-test PCA Clustering Classification ANOVA List of significant co-regulated genes Reporting results ‘MICROARRAY DATA’ Further analysis (data mining) Promoter analysis Function prediction Gene regulatory networks Literature searches Annotation searches ‘DATA MINING’
Hibridació test HEK293 vs HeLa La millor manera de mesurar ‘soroll’ experimental: experiments de hibridació self-self Hibridació control self-self HeLa vs HeLa
Valors d’expressió relativa • Quocient d’expressió: ratio=NormInt1/NormInt2 • Logaritme del quocient d’expressió Log ratio=log2(NormInt1/NormInt2) • Transformació logaritmica converteix en una distribució normal (Gaussian) de quocients centrats en el valor 0 (zero). • Logaritme en base 2 emprat sovint perque una inducció del doble (2X) o repressió a la meitat és la diferència mínima considerada mesurable • Hi ha maneres alternatives de mirar les dades (intensitats, log intensitats, etc)
-1 0 +1 __ 2 1 Transfromació logarítimica 0.5 1 2 Ratio(R/G) = = = __ __ 1 1 2 1 double equal half log2ratio(R/G) Log2(0.5)=-1 Log2(1)=0 Log2(2)=1 meitat igual doble
Escala simètrica càlcul de taxa de canvi – ‘fold change’ (FC) -1 0 +1 M Log2(0.5)=-1 Log2(1)=0 Log2(2)=1 -2 -1 +1 +2 Fold change (R/G) half equal double -2(-1) = -2 21 = 2 half equal double Quan log2ratio < 0: FC = -2 -Log2(R/G) Quan log2ratio > 0: FC = 2 Log2(R/G) (= ratio)
__ 2 1 Transfromació simètrica 0.5 1 2 Ratio(R/G) = = = __ __ 1 1 2 1 -2 -1 +1 +2 Fold change (R/G) double equal half -1/0.5 = -2 half equal double Quan ratio < 1: FC = -1/ratio Quan ratio > 1: FC = ratio
La relació entre intensitat NO és linial • Per això s’estilen mètodes de regressió locals: • Lowess (locally weighted robust linear regression) • Regressió no linial
Valors d’expressió normalitzada • Quocient d’expressió (expression ratio): ratio=NormInt1/NormInt2 • Logaritme del quocient d’expressió (expression log ratio) Log ratio=log2(NormInt1/NormInt2) • La transformació logarítmica permet establir una distribució normal (Gaussiana) dels ratios amb valors centrats en 0. • Log base 2 emprat perque es considera sovint 2X com el nivell mínim de diferència acceptable com a significativa • Els ratios suposen pèrdua de informació (intensitat)
Histogrames de ratios i scatterplots (gràfiques de dispersió)
Normalització per lowess (locally weighted linear regression) • Centra a valor logratio igual a 0 • Compensa comportament no linial
Avantatges dels gràfics MA / RI i aplicació de lowess • Mostren estructura de les dades que permet avaluar la qualitat de les dades d’expressió • Mesures log2(ratio) mostren una major variació en rangs de baixa intensitat • Molts dels estudis publicats empren un únic valor limit determinat (per exemple 2X o 0.5X). • Emprar lowess permet fixar límits de significació variables dependents de intensitat (basats en desviació estándar local)
Pas 3: Filtratge de dades previ a l’anàlisi • Eliminació de dades no tractables: • Amb intensitats baixes • Amb intensitat per sota de background (càlcul de ratio impossible; poden fer-se conversions) • Amb coeficient de variació excedint un llindar entre rèpliques
Pas 4: Tests de significació estadística • t-test • Two component error model (Rocke-Lorenzato) • Z-scores (Chen) • SAM (significance analysis of microarrays; Tusher et. al) • SAM score (T-statistics value), valor ‘d’ de significació • q value, mesura de la taxa de falsos positius • IMPORTANT: Iniciativa CAMDA (Critical Assessment of Microarray Data Analysis)
Tests de significació estadística • t-test (amb ajust per a nombre alt de sondes) • Compara els valors de les rèpliques de dues condicions diferents • Estableix si la diferencia pot haver estat per atzar (amb una probabilitat d’acceptar un fals positiu de p=0.05)
Tests de significació estadística • Hipòtesi a tots els tests: • No hi ha cap diferència entre les mitjanes de intensitat d’expressió gènica per al gen X entre els grups (condicions) testats. • En altres paraules, tots els grups tenen mitjanes equivalents per al gen X.
Correcció per a tests múltiples • Si es testen 10.000 gens amb un valor de tall de significació de (p-value) de 0.05 voldrà dir que el nombre de gens que es trobi amb expressió diferencial per atzar –encara que no hi hagi expressió diferencial veritablement- seria de: 10,000 x 0.05 = 500 gens • La correcció per atests múltiples fa un ajust del p-value individual de cada gen per fer l’error menor o igual que un valor de tall especificat per l’usuari
Step 4: Test de significació estadística • IMPORTANT: Iniciativa CAMDA (Critical Assessment of Microarray Data Analysis)