1 / 39

Bioinformatika: iz statisti čke perspektive

Bioinformatika: iz statisti čke perspektive. Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu. Bioinformatika. Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji Stručnjaci raznih područja sudjeluju u

chyna
Download Presentation

Bioinformatika: iz statisti čke perspektive

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformatika: iz statističke perspektive Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu

  2. Bioinformatika • Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji • Stručnjaci raznih područja sudjeluju u • izradi baza podataka (npr. human genome project) • njihovoj analizi, odn. statističkoj i računalnoj obradi • Karakteristike: ogromne količine podataka, ali i sve veći broj metoda, procedura za njihovu obradu

  3. Osnovne teme • Sequence analysis • Gene finding • Computational evolutionary biology • Analysis of gene expression • Analysis of regulation • Prediction of protein structure • Modeling of biological systems itd.

  4. Osnove molekularne biologije Središnja dogma mol. biologije Živi organizmi Biološki nizovi: DNA - nizovi u alfabetu od 4 slova: A,C,G,T RNA - nizovi u alfabetu od 4 slova: A,C,G,U proteini - nizovi u alfabetu od 20 slova - aminokiselina ARNDCEQGHILKMFPSTWYV

  5. Transkripcija

  6. Evolucija nizova Deletion (brisanje) Mutation (mutacija) Insertion (ubacivanje) …ACGGTGCAGTTACCA… …AC----CAGTCACCGTGTAA… REARRANGEMENTS Inversion Translocation Duplication

  7. No, mi vidimo samo… nekoliko više ili manje sličnih nizova, npr. GCGCATGGATTGAGCGA TGCGCCATTGATGACCA koji mogu (a ne moraju) dijeliti zajedničku evoluciju (a ne moraju biti ni iste duljine).

  8. Poravnanje (alignment) -GCGC-ATGGATTGAGCGA TGCGCCATTGAT-GACC-A Tri skupine poravnatih slova: • perfect matches • mismatches • insertions / deletions (indel)

  9. w: …ACGGTGCAGTTACCA… w’:…ACCAGTCACCGTGTAA… Poravnanje zapravo nizove preslika u dulje nizove s jednim dodatnim znakom: “-” v:…ACGGTGCAGTTACC-----A… v’:…AC----CAGTCACCGTGTAA… Formalna definicija je jasna (iako nezgrapna). Postavlja se pitanje odabira najboljeg alignmenta. Za to nam je potrebna funkcija skora - score function- na alfabetu proširenim znakom “-”.

  10. Score function

  11. Bliskost nizova (kvaliteta poravnanja) ukazuje na: • (djelomičnu) zajedničku evoluciju kod DNA nizova • zajedničku evoluciju ili što je zanimljivije istu funkciju kod proteinskih nizova Slično, jako sačuvani podnizovi (s malo mutacija) impliciraju • funkcionalno značajne pozicije

  12. Vjerojatnosni model za nizove • Najjednostavnije je pretpostaviti da su generirani kao neki njd niz iz danog alfabeta, npr. • Mada se ponekad koriste i složeniji modeli koju uključuju zavisnost

  13. Vjerojatnosni modeli za evoluciju Važno je znati i koliko su vjerojatne pojedine mutacije (nukleotida ili aminokiselina) a prirodno je pretpostaviti da vrijedi za stacionarne vjerojatnosti qy • Tipično se modelira Markovljevim procesima, zadanim matricama intenziteta.

  14. Globalno poravnanje wn gdje maksimum tražimo po svim poravnanjima v,v’ originalnih nizova w,w’ w1 w1 ‘ wm ‘

  15. Iz Kingmanovog subaditivnog ergodskog teorema poznato je (Chvatal-Sankoff,1975), ako oba niza imaju duljinu n koja konvergira u beskonačno • Konstanta nije poznata, čak ni za binarne njd nizove i najjednostavniju funkciju s. Poznato je tek (longest common subsequence problem)

  16. Lokalno poravnanje wn gdje maksimum tražimo po svim podnizovima jednake duljine od originalnih nizova w,w’,koji završavaju na mjestu i,j w1 w1 ‘ wm ‘

  17. Lokalno poravnanje • Povezano s Erdos-Renyievim problemom • Chen-Steinovom metodom može se pokazati da vrijedi aproksimativni zakon razdiobe za optimalno lokalno poravnanje • Uočite da je testna statistika zapravo maksimum od n x nlokalnih poravnanja, a teoretski rezultat vodi računa o tome da smo zapravo izveli n x n testova i korigira za višestruko testiranje

  18. Erdos-Renyiev problem – odrediti distribuciju najduljeg niza uspjeha u Bernoullijevom njd nizu ekvivalentno je znati (za fiksni alignment!!) koliko je dug najdulji potpuno poravnati podniz. Ako je p vjerojatnost poravnanja, poznato je da Ima približno Gumbelovu razdiobu

  19. Primjer. Ako pretpostavimo da su DNK nizovi realizacije nizova njd slučajnih varijabli s uniformnom distribucijom i njihova duljina je jednaka n= 100 000, onda, ako je najdulji primjećeni zajednički niz duljine 10, korištenjem prethodne formule dobivamo da je p-vrijednost približno jednaka 0,069, a ako je najdulji primjećeni zajednički segment duljine 12, pripadna p-vrijednost iznosipribližno 0,0045. Uočimo da je posljednja p-vrijednost manja od 0,05, što jeuobičajena granica kod koje odbacujemo nulhipotezu (u ovom slučaju o nezavisnom podrijetlu nizova).

  20. Dodatne napomene • Naći optimalno lokalno ili globalno poravnanje zahtjevan je algoritamski problem (riješen je dinamičkim programiranjem) • Needleman-Wunsch (globalno) • Smith-Waterman (lokalno) • Postoji više načina na koji se penaliziraju gapovi u poravnanju, • biološki relevantnim se smatra i afino penaliziranje gapova.

  21. Specificity determining residues • Pretpostavimo da su nam proteini podijeljeni u dvije (funkcionalne) podgrupe, te da nam je dano njihovo višestruko poravnanje from M.Gelfand:Identification of specificity-determining positions in protein alignments

  22. 20 aminokiselina

  23. Struktura proteina Primarna struktura: poznat nam je samo niz aminokiselina npr: …V H L T P E E K… Sekundarna struktura: poznate su neki pravilni dijelovi: npr: alpha-helix, beta-sheets Tercijarna struktura: poznat je trodimenzionalan položaj molekula

  24. Evolucijski model za aminokiseline • Kao što smo vidjeli evol. modeli se određuju preko matrica prijelaznih vjerojatnosti -> da bismo ih uveli koristit ćemo matrice substitucije • Matrice supstitucije kao što je BLOSUM (Blocks Substitution Matrices - Henikoff and Henikoff, 1992) također sadrže informacije o vjerojatnosti pojedinih mutacija • Matrice sadrže tzv. log-odds koji se koriste ujedno i za izvođenje skorova tj. score function

  25. Log-odds Gornji izraz se zapravo koristi u definicije fukcije skora s

  26. Uočimo Ovo nam daje sljedeću ideju za model

  27. Testne statistike Krećemo od poravnanja Za dani stupac poravnanja k izračunamo testnu statistiku

  28. Trebaju nam vjerojatnosti da pod H0 na mjestu k vidimo ovako ekstremnu statistiku recimo u, tj. gdje je H0: k nije SDR tj. specificity determining residue (funkcionalno specifična pozicija). • To napravimo za sve stupce, pitanje je da li neki stupci (i koji?) indiciraju posebno značajna i funkcionalno specifična mjesta u poravnanju.

  29. Prema poznatoj statističkoj teoriji log-likelihood ratio statistike poput ove koju mi računamo imaju asimptotski chi-kvadrat razdiobu. (Kod nas uvjeti iza ovakvih teorijski rezultata nisu zadovoljeni) • Mi simulacijama određujemo približnu razdiobu za testnu statistiku pod nul-hipotezom • Tako određujemo približne p-vrijednosti • No i dalje provodimo puno testova! Svaki nam daje svoju p-vrijednost

  30. Stoga pitanje moramo preformulirati: Koliko je vjerojatno da vidimo ovako male p-vrijednosti ako vrijedi H0: niti jedan k nije SDR? Tj. želimo znati:

  31. Uvijek možemo odrediti gornju granicu tzv. Bonferroni korekciju Stoga naše rezultate proglašavamo značajnim (i odbacujemo H0 ) ako je Kako su u stvarnosti susjedne pozicije pozitivno korelirane, pa prema tome i testne statistike ovo je vrlo gruba ocjena Dovest će do konzervativnog testa, male jakosti.

  32. Alternativni pristupi višestrukom testiranju hipoteza • Permutation test • False discovery rate - FDR ukoliko je izvedeno m testova

  33. Alternativni pristupi otkrivanju SDR: Mutual information, Z-scores. • Between Group Analysis (BGA), Higgins, Wallace (2007.) • Sequence Harmony (SH), Heringa, Feenstra, Pirovano, Krab (2007.) • SDPpred, Rakhmaninova et al. (2004.)

  34. Usporedba s objavljenim rezultatima u literaturi. Top 10 naših rangiranih pozicija su ujedno signifikantne čak i uz Bonferroni korekciju na nivou znač. 10%

  35. Sažetak predložene procedure • SDR predstavljaju mjesta na proteinima koja (potencijalno) specificiraju njihovu funkciju • Odrediti ih nije jednostavno. Moramo posebno voditi računa o višestrukom testiranju. • Procedura je implementirana online: compbio.math.hr • Nezavršen projekt: za sada radimo samo sa dvije grupe

  36. Protein clustering • Esencijalno isti vjerojatnosni model, iskoristili smo u izradi algoritma za klasteriranje neke familije proteina v. Goldstein et al (2009): Clustering of protein domains for functional and evolutionary studies, BMC Bioinformatics

  37. Drugi primjeri Višestruko testiranje hipoteza javlja se i u • Mapiranju tzv QTLova (odn. gena) • Analizi DNA microarrays • Forenzičkoj DNA analizi • Filogenetskoj analizi • itd.

  38. Literatura “Biological sequence analysis” by Durbin, Eddy, Krogh, Mitchinson “Introduction to computationalbiology” by Waterman Vidi također http://www.cs.tau.ac.il/~bchor/CG05/CG1-alignment.pps, http://ai.stanford.edu/~serafim/CS262_2005/Slides/CS262_2005_Lecture2.ppt, Wikipedia za dodatne informacije o biološkoj analizi nizova

  39. Acknowledgments P. Goldstein (PMF-MO) J. Žućko(PBF) I. Vujaklija (FER) D. Špoljarić (PBF)

More Related