1 / 31

Microarray Data Analysis

Microarray Data Analysis. Letizia Magnoni Junior Scientist Sienabiotech Spa. Argomenti. Cosa e’ un esperimento di microarray A cosa serve Come si puo’ disegnare un esperimento Normalizzazione Analisi Analisi Cluster Annotazioni dei geni selezionati. Gene expression.

Download Presentation

Microarray Data Analysis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Microarray Data Analysis Letizia Magnoni Junior Scientist Sienabiotech Spa Bioinformatics and statistics in drug discovery company

  2. Argomenti • Cosa e’ un esperimento di microarray • A cosa serve • Come si puo’ disegnare un esperimento • Normalizzazione • Analisi • Analisi Cluster • Annotazioni dei geni selezionati Bioinformatics and statistics in drug discovery company

  3. Gene expression • Ogni cellula contiene una copia completa del genoma dell’organismo. • Esistono vari tipi e stati di cellule (cellule di sangue, nervi e pelle, cellule che si dividono, cellule cancerogene, ecc.) Bioinformatics and statistics in drug discovery company

  4. Variazione dell’espressione • Cosa rende le cellule diverse tra loro? • L’espressione differente dei geni, cioe’ quando, dove e quanto ogni gene e’ espresso. • In media, il 40% dei nostri geni e’ espresso in ogni momento. Bioinformatics and statistics in drug discovery company

  5. mRNA cDNA Bioinformatics and statistics in drug discovery company

  6. Perche’ Microarrays • In passato solo analisi di un gene (o pochi) alla volta (Northern blot) • Oggi fino a 40.000 geni su una sola microarray. Bioinformatics and statistics in drug discovery company

  7. Applicazioni di Microarrays • Individuazione di target per farmaci e validazione • identificazione di geni modulati in modo specifico rispetto ad una certa malattia (differential expression) • Elicidazione dei meccanismi dell’azione • Drug safety profiling • Guilt by association (geni con comportamento connesso tra loro) • Pathway modeling • Classificazione di nuovi composti • Diagnostica • Identificazione di Biomarkers Bioinformatics and statistics in drug discovery company

  8. “Disegno” di un esperimento • Insieme dei trattamenti selezionati per il confronto • La specificazione delle unita’ a cui verranno somministrati i trattamenti • Le regole secondo cui i trattamenti vengono assegnati ad ogni unita’ sperimentale • La specificazione delle misurazioni (R/G) Bioinformatics and statistics in drug discovery company

  9. G. A. Churchill in Nature Genetics vol. 32, 2002 Disegno Sperimentale • Fonti di variazione: • Variazione biologica • Variazione tecnica • Variazione dovuta alla collocazione degli elementi nelle arrays. Bioinformatics and statistics in drug discovery company

  10. A A B A1 B1 A2 B2 Vari Disegni Sperimentali • Dye-swap: B • Dye-swap ripetuto: • Dye-swap con replica biologica: Bioinformatics and statistics in drug discovery company

  11. A Ref B A Ref B Vari Disegni Sperimentali • Reference: N.B. Questo disegno sperimentale non mette in luce la variabilita’ introdotta dalla colorazione. A mix B • Per migliorare questo disegno: N.B. Meta’ delle misurazioni vengono fatte nel campione di minore interesse. A mix B Bioinformatics and statistics in drug discovery company

  12. A1 B1 B2 A2 Vari Disegni Sperimentali • Loop: Bioinformatics and statistics in drug discovery company

  13. Trattamenti: A B Replicati: A2 A1 B1 B2 RNA1 RNA2 RNA3 RNA4 Colorazioni: G R G R G R G R Arrays: A1 B1 Disegno: A2 B2 Bioinformatics and statistics in drug discovery company

  14. G G G G R R R R A1 B1 A2 B2 Trattamenti: A B Replicati: A1 A2 B1 B2 RNA1 RNA2 RNA3 RNA4 Colorazioni: Arrays: Disegno: Bioinformatics and statistics in drug discovery company

  15. Normalizzazione • Si vuole togliere dai dati tutta quella variabilita’ che non ha origine biologica: • Campioni (isolamento, estrazione di RNA,..) • Probe nature (cDNA clones, oligos, ..) • Arrays (substrato, lotto, difetti di superficie, ..) • Colorazione (colore, attivita’ specifica, ..) • Ibridizzazione (tempo, temperatura) • Misurazione (hardware, software, saturation) Bioinformatics and statistics in drug discovery company

  16. Normalizzazione • Possibili approcci: • Housekeeping genes set (which genes, mean value) • Complete gene set (min./selected/all, fluorescence intensity) • Spiked exogeneous control mRNAs (mean value) • Linear regression analysis Bioinformatics and statistics in drug discovery company

  17. Tecniche di normalizzazione • Normalizzazione dell’intensita’ totale • Questo tipo di normalizzazione assume una uguale quantita’ di mRNA per entrambi i campioni etichettati. • Si cerca una costante “c” che aggiusti i dati in modo tale che i due campioni abbiano media o mediana uguale. Bioinformatics and statistics in drug discovery company

  18. Normalizzazione dell’intensita’ totale La trasformazione degli assi coordinati ci permette di visualizzare meglio i dati Bioinformatics and statistics in drug discovery company

  19. Tecniche di Normalizzazione • Tecniche di Regressione: • Regressione lineare dei dati e successiva normalizzazione in modo tale che il coefficiente lineare della retta di regressione abbia coefficiente angolare unitario. • Regressione lineare locale (LOWESS)“LOcally WEighted Scatter plot Smooth” Bioinformatics and statistics in drug discovery company

  20. Normalizzazione con tecniche di regressione locale Bioinformatics and statistics in drug discovery company

  21. Analisi Statistica dei dati • Si vuole rispondere alle domande: • La differenza che vedo nei miei dati e’ significativa? • Le differenze osservate sono dovute solo alla diversa risposta dei campioni ai trattamenti? Bioinformatics and statistics in drug discovery company

  22. T-test con due campioni:confronto tra le due medie • Ipotesi: • I campioni hanno distribuzioni normali; • I campioni sono originati da due variabili indipendenti; • Due possibili assunzioni sulle varianze: se o altrimenti. La statistica test ha una distribuzione t di Student Bioinformatics and statistics in drug discovery company

  23. Confronto tra medie di due campioni in un esperimento di Microarray • Si vogliono evitare tutte le assunzioni fatte precedentemente. • Statistica test (Welch Statistic); per ogni gene i calcoliamo: • Per determinarne la distribuzione possiamo utilizzare algoritmi di permutazione o di bootstrap. B. Efron, R. J. Tibshirani: “An Introduction to the Bootstrap”, Chapman & Hall (1993) S. Dudoit et al: “Statistical methods for identifying differentially expressed genes in replicated cDNA Microarray Experiments”, Statistica Sinica 12(2002), pp 111-139 Bioinformatics and statistics in drug discovery company

  24. Permutation test • Stima la distribuzione della statistica test sotto l’ipotesi nulla (che non ci sia differenza tra i due campioni) tramite permutazioni dei campioni etichettati. • Il p_value e’ dato come frazione delle permutazioni per cui il valore della statistica test e’ (almeno) tanto estremo quanto quello che e’ stato osservato. Bioinformatics and statistics in drug discovery company

  25. Multiple testing • Supponiamo di avere un esperimento con 10.000 geni e decidiamo di controllare l’errore di tipo I al 5% (rifiuto l’ipotesi nulla quando il p-value e’ minore di 0.05): • il valore atteso di rigettare in modo errato l’ipotesi nulla sara’: 10.000 x 0.05 = 500. Bioinformatics and statistics in drug discovery company

  26. Multiple testing methods • Dobbiamo considerare il fatto di dovere aggiustare il livello di significativita’ del nostro test (multiple testing procedure) • Bonferroni (non e’ consigliabile per esperimenti di microarrays) • Westfall and Young step-down procedure • False Discovery Rates (FDR; Benjamini and Hochberg, 1995) Dudoit et al, “Multiple Hypothesis Testing in Microarray Experiments”, U.C. Berkeley Division of Biostatistics Working Paper Series, 2002 Bioinformatics and statistics in drug discovery company

  27. Modelli ANOVA • Questi modelli cercano di dare una stima delle piu’ importanti fonti di variabilita’ presenti in un esperimento. • Arrays (Ai) i = 1,2,..,#arrays • Dyes (colorazione) (Dj) j = 1,2 • Varieties (trattamenti) (Vk) k = 1,2,..,#varieties • Genes (Gg) g = 1,2,..,#genes • Il modello che si assume e’: Bioinformatics and statistics in drug discovery company

  28. A B A Ref B Modelli ANOVA e disegno sperimentale • Disegno Dye-Swap • Disegno reference Bioinformatics and statistics in drug discovery company

  29. Analisi da un punto di vista Bayesiano • Entrambe le tecniche presentate hanno un approccio mediante la statistica Bayesiana. • P. Baldi,”A Bayesian framework for the analysis of microarray expression data: regularized t-test and statistical inferences of gene changes”, Bioinformatics, Vol.17, no 6, pp 509-519 (2001) • D.A.Henderson, “Bayesian Statistical Methods for the Detection of Differential Gene Expression and Control of Multiple Hypothesis Testing in cDNA and Oligonucleotide Microarray Experiments”, University of Arizona Bioinformatics and statistics in drug discovery company

  30. Siti interessanti http://www.stat.berkeley.edu/users/terry/Group/index.html http://www.jax.org/staff/churchill/labsite/research/index.html http://www.gene-chips.com/ http://www.nslij-genetics.org/microarray/analy.html http://www.mged.org/Workgroups/MIAME/miame.html http://www.bioconductor.org/ http://www.bio.davidson.edu/courses/genomics/chip/chip.html Bioinformatics and statistics in drug discovery company

  31. Grazie Bioinformatics and statistics in drug discovery company

More Related