410 likes | 654 Views
Bioinformatika: iz statisti čke perspektive. Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu. Bioinformatika. Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji Stručnjaci raznih područja sudjeluju u
E N D
Bioinformatika: iz statističke perspektive Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu
Bioinformatika • Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji • Stručnjaci raznih područja sudjeluju u • izradi baza podataka (npr. human genome project) • njihovoj analizi, odn. statističkoj i računalnoj obradi • Karakteristike: ogromne količine podataka, ali i sve veći broj metoda, procedura za njihovu obradu
Osnovne teme • Sequence analysis • Gene finding • Computational evolutionary biology • Analysis of gene expression • Analysis of regulation • Prediction of protein structure • Modeling of biological systems itd.
Osnove molekularne biologije Središnja dogma mol. biologije Živi organizmi Biološki nizovi: DNA - nizovi u alfabetu od 4 slova: A,C,G,T RNA - nizovi u alfabetu od 4 slova: A,C,G,U proteini - nizovi u alfabetu od 20 slova - aminokiselina ARNDCEQGHILKMFPSTWYV
Evolucija nizova Deletion (brisanje) Mutation (mutacija) Insertion (ubacivanje) …ACGGTGCAGTTACCA… …AC----CAGTCACCGTGTAA… REARRANGEMENTS Inversion Translocation Duplication
No, mi vidimo samo… nekoliko više ili manje sličnih nizova, npr. GCGCATGGATTGAGCGA TGCGCCATTGATGACCA koji mogu (a ne moraju) dijeliti zajedničku evoluciju (a ne moraju biti ni iste duljine).
Poravnanje (alignment) -GCGC-ATGGATTGAGCGA TGCGCCATTGAT-GACC-A Tri skupine poravnatih slova: • perfect matches • mismatches • insertions / deletions (indel)
w: …ACGGTGCAGTTACCA… w’:…ACCAGTCACCGTGTAA… Poravnanje zapravo nizove preslika u dulje nizove s jednim dodatnim znakom: “-” v:…ACGGTGCAGTTACC-----A… v’:…AC----CAGTCACCGTGTAA… Formalna definicija je jasna (iako nezgrapna). Postavlja se pitanje odabira najboljeg alignmenta. Za to nam je potrebna funkcija skora - score function- na alfabetu proširenim znakom “-”.
Bliskost nizova (kvaliteta poravnanja) ukazuje na: • (djelomičnu) zajedničku evoluciju kod DNA nizova • zajedničku evoluciju ili što je zanimljivije istu funkciju kod proteinskih nizova Slično, jako sačuvani podnizovi (s malo mutacija) impliciraju • funkcionalno značajne pozicije
Vjerojatnosni model za nizove • Najjednostavnije je pretpostaviti da su generirani kao neki njd niz iz danog alfabeta, npr. • Mada se ponekad koriste i složeniji modeli koju uključuju zavisnost
Vjerojatnosni modeli za evoluciju Važno je znati i koliko su vjerojatne pojedine mutacije (nukleotida ili aminokiselina) a prirodno je pretpostaviti da vrijedi za stacionarne vjerojatnosti qy • Tipično se modelira Markovljevim procesima, zadanim matricama intenziteta.
Globalno poravnanje wn gdje maksimum tražimo po svim poravnanjima v,v’ originalnih nizova w,w’ w1 w1 ‘ wm ‘
Iz Kingmanovog subaditivnog ergodskog teorema poznato je (Chvatal-Sankoff,1975), ako oba niza imaju duljinu n koja konvergira u beskonačno • Konstanta nije poznata, čak ni za binarne njd nizove i najjednostavniju funkciju s. Poznato je tek (longest common subsequence problem)
Lokalno poravnanje wn gdje maksimum tražimo po svim podnizovima jednake duljine od originalnih nizova w,w’,koji završavaju na mjestu i,j w1 w1 ‘ wm ‘
Lokalno poravnanje • Povezano s Erdos-Renyievim problemom • Chen-Steinovom metodom može se pokazati da vrijedi aproksimativni zakon razdiobe za optimalno lokalno poravnanje • Uočite da je testna statistika zapravo maksimum od n x nlokalnih poravnanja, a teoretski rezultat vodi računa o tome da smo zapravo izveli n x n testova i korigira za višestruko testiranje
Erdos-Renyiev problem – odrediti distribuciju najduljeg niza uspjeha u Bernoullijevom njd nizu ekvivalentno je znati (za fiksni alignment!!) koliko je dug najdulji potpuno poravnati podniz. Ako je p vjerojatnost poravnanja, poznato je da Ima približno Gumbelovu razdiobu
Primjer. Ako pretpostavimo da su DNK nizovi realizacije nizova njd slučajnih varijabli s uniformnom distribucijom i njihova duljina je jednaka n= 100 000, onda, ako je najdulji primjećeni zajednički niz duljine 10, korištenjem prethodne formule dobivamo da je p-vrijednost približno jednaka 0,069, a ako je najdulji primjećeni zajednički segment duljine 12, pripadna p-vrijednost iznosipribližno 0,0045. Uočimo da je posljednja p-vrijednost manja od 0,05, što jeuobičajena granica kod koje odbacujemo nulhipotezu (u ovom slučaju o nezavisnom podrijetlu nizova).
Dodatne napomene • Naći optimalno lokalno ili globalno poravnanje zahtjevan je algoritamski problem (riješen je dinamičkim programiranjem) • Needleman-Wunsch (globalno) • Smith-Waterman (lokalno) • Postoji više načina na koji se penaliziraju gapovi u poravnanju, • biološki relevantnim se smatra i afino penaliziranje gapova.
Specificity determining residues • Pretpostavimo da su nam proteini podijeljeni u dvije (funkcionalne) podgrupe, te da nam je dano njihovo višestruko poravnanje from M.Gelfand:Identification of specificity-determining positions in protein alignments
Struktura proteina Primarna struktura: poznat nam je samo niz aminokiselina npr: …V H L T P E E K… Sekundarna struktura: poznate su neki pravilni dijelovi: npr: alpha-helix, beta-sheets Tercijarna struktura: poznat je trodimenzionalan položaj molekula
Evolucijski model za aminokiseline • Kao što smo vidjeli evol. modeli se određuju preko matrica prijelaznih vjerojatnosti -> da bismo ih uveli koristit ćemo matrice substitucije • Matrice supstitucije kao što je BLOSUM (Blocks Substitution Matrices - Henikoff and Henikoff, 1992) također sadrže informacije o vjerojatnosti pojedinih mutacija • Matrice sadrže tzv. log-odds koji se koriste ujedno i za izvođenje skorova tj. score function
Log-odds Gornji izraz se zapravo koristi u definicije fukcije skora s
Uočimo Ovo nam daje sljedeću ideju za model
Testne statistike Krećemo od poravnanja Za dani stupac poravnanja k izračunamo testnu statistiku
Trebaju nam vjerojatnosti da pod H0 na mjestu k vidimo ovako ekstremnu statistiku recimo u, tj. gdje je H0: k nije SDR tj. specificity determining residue (funkcionalno specifična pozicija). • To napravimo za sve stupce, pitanje je da li neki stupci (i koji?) indiciraju posebno značajna i funkcionalno specifična mjesta u poravnanju.
Prema poznatoj statističkoj teoriji log-likelihood ratio statistike poput ove koju mi računamo imaju asimptotski chi-kvadrat razdiobu. (Kod nas uvjeti iza ovakvih teorijski rezultata nisu zadovoljeni) • Mi simulacijama određujemo približnu razdiobu za testnu statistiku pod nul-hipotezom • Tako određujemo približne p-vrijednosti • No i dalje provodimo puno testova! Svaki nam daje svoju p-vrijednost
Stoga pitanje moramo preformulirati: Koliko je vjerojatno da vidimo ovako male p-vrijednosti ako vrijedi H0: niti jedan k nije SDR? Tj. želimo znati:
Uvijek možemo odrediti gornju granicu tzv. Bonferroni korekciju Stoga naše rezultate proglašavamo značajnim (i odbacujemo H0 ) ako je Kako su u stvarnosti susjedne pozicije pozitivno korelirane, pa prema tome i testne statistike ovo je vrlo gruba ocjena Dovest će do konzervativnog testa, male jakosti.
Alternativni pristupi višestrukom testiranju hipoteza • Permutation test • False discovery rate - FDR ukoliko je izvedeno m testova
Alternativni pristupi otkrivanju SDR: Mutual information, Z-scores. • Between Group Analysis (BGA), Higgins, Wallace (2007.) • Sequence Harmony (SH), Heringa, Feenstra, Pirovano, Krab (2007.) • SDPpred, Rakhmaninova et al. (2004.)
Usporedba s objavljenim rezultatima u literaturi. Top 10 naših rangiranih pozicija su ujedno signifikantne čak i uz Bonferroni korekciju na nivou znač. 10%
Sažetak predložene procedure • SDR predstavljaju mjesta na proteinima koja (potencijalno) specificiraju njihovu funkciju • Odrediti ih nije jednostavno. Moramo posebno voditi računa o višestrukom testiranju. • Procedura je implementirana online: compbio.math.hr • Nezavršen projekt: za sada radimo samo sa dvije grupe
Protein clustering • Esencijalno isti vjerojatnosni model, iskoristili smo u izradi algoritma za klasteriranje neke familije proteina v. Goldstein et al (2009): Clustering of protein domains for functional and evolutionary studies, BMC Bioinformatics
Drugi primjeri Višestruko testiranje hipoteza javlja se i u • Mapiranju tzv QTLova (odn. gena) • Analizi DNA microarrays • Forenzičkoj DNA analizi • Filogenetskoj analizi • itd.
Literatura “Biological sequence analysis” by Durbin, Eddy, Krogh, Mitchinson “Introduction to computationalbiology” by Waterman Vidi također http://www.cs.tau.ac.il/~bchor/CG05/CG1-alignment.pps, http://ai.stanford.edu/~serafim/CS262_2005/Slides/CS262_2005_Lecture2.ppt, Wikipedia za dodatne informacije o biološkoj analizi nizova
Acknowledgments P. Goldstein (PMF-MO) J. Žućko(PBF) I. Vujaklija (FER) D. Špoljarić (PBF)