Bioinformatika: iz statisti čke perspektive

Bioinformatika: iz statističke perspektive Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu

Bioinformatika • Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji • Stručnjaci raznih područja sudjeluju u • izradi baza podataka (npr. human genome project) • njihovoj analizi, odn. statističkoj i računalnoj obradi • Karakteristike: ogromne količine podataka, ali i sve veći broj metoda, procedura za njihovu obradu

Osnovne teme • Sequence analysis • Gene finding • Computational evolutionary biology • Analysis of gene expression • Analysis of regulation • Prediction of protein structure • Modeling of biological systems itd.

Osnove molekularne biologije Središnja dogma mol. biologije Živi organizmi Biološki nizovi: DNA - nizovi u alfabetu od 4 slova: A,C,G,T RNA - nizovi u alfabetu od 4 slova: A,C,G,U proteini - nizovi u alfabetu od 20 slova - aminokiselina ARNDCEQGHILKMFPSTWYV

Transkripcija

Evolucija nizova Deletion (brisanje) Mutation (mutacija) Insertion (ubacivanje) …ACGGTGCAGTTACCA… …AC----CAGTCACCGTGTAA… REARRANGEMENTS Inversion Translocation Duplication

No, mi vidimo samo… nekoliko više ili manje sličnih nizova, npr. GCGCATGGATTGAGCGA TGCGCCATTGATGACCA koji mogu (a ne moraju) dijeliti zajedničku evoluciju (a ne moraju biti ni iste duljine).

Poravnanje (alignment) -GCGC-ATGGATTGAGCGA TGCGCCATTGAT-GACC-A Tri skupine poravnatih slova: • perfect matches • mismatches • insertions / deletions (indel)

w: …ACGGTGCAGTTACCA… w’:…ACCAGTCACCGTGTAA… Poravnanje zapravo nizove preslika u dulje nizove s jednim dodatnim znakom: “-” v:…ACGGTGCAGTTACC-----A… v’:…AC----CAGTCACCGTGTAA… Formalna definicija je jasna (iako nezgrapna). Postavlja se pitanje odabira najboljeg alignmenta. Za to nam je potrebna funkcija skora - score function- na alfabetu proširenim znakom “-”.

Score function

Bliskost nizova (kvaliteta poravnanja) ukazuje na: • (djelomičnu) zajedničku evoluciju kod DNA nizova • zajedničku evoluciju ili što je zanimljivije istu funkciju kod proteinskih nizova Slično, jako sačuvani podnizovi (s malo mutacija) impliciraju • funkcionalno značajne pozicije

Vjerojatnosni model za nizove • Najjednostavnije je pretpostaviti da su generirani kao neki njd niz iz danog alfabeta, npr. • Mada se ponekad koriste i složeniji modeli koju uključuju zavisnost

Vjerojatnosni modeli za evoluciju Važno je znati i koliko su vjerojatne pojedine mutacije (nukleotida ili aminokiselina) a prirodno je pretpostaviti da vrijedi za stacionarne vjerojatnosti qy • Tipično se modelira Markovljevim procesima, zadanim matricama intenziteta.

Globalno poravnanje wn gdje maksimum tražimo po svim poravnanjima v,v’ originalnih nizova w,w’ w1 w1 ‘ wm ‘

Iz Kingmanovog subaditivnog ergodskog teorema poznato je (Chvatal-Sankoff,1975), ako oba niza imaju duljinu n koja konvergira u beskonačno • Konstanta nije poznata, čak ni za binarne njd nizove i najjednostavniju funkciju s. Poznato je tek (longest common subsequence problem)

Lokalno poravnanje wn gdje maksimum tražimo po svim podnizovima jednake duljine od originalnih nizova w,w’,koji završavaju na mjestu i,j w1 w1 ‘ wm ‘

Lokalno poravnanje • Povezano s Erdos-Renyievim problemom • Chen-Steinovom metodom može se pokazati da vrijedi aproksimativni zakon razdiobe za optimalno lokalno poravnanje • Uočite da je testna statistika zapravo maksimum od n x nlokalnih poravnanja, a teoretski rezultat vodi računa o tome da smo zapravo izveli n x n testova i korigira za višestruko testiranje

Erdos-Renyiev problem – odrediti distribuciju najduljeg niza uspjeha u Bernoullijevom njd nizu ekvivalentno je znati (za fiksni alignment!!) koliko je dug najdulji potpuno poravnati podniz. Ako je p vjerojatnost poravnanja, poznato je da Ima približno Gumbelovu razdiobu

Primjer. Ako pretpostavimo da su DNK nizovi realizacije nizova njd slučajnih varijabli s uniformnom distribucijom i njihova duljina je jednaka n= 100 000, onda, ako je najdulji primjećeni zajednički niz duljine 10, korištenjem prethodne formule dobivamo da je p-vrijednost približno jednaka 0,069, a ako je najdulji primjećeni zajednički segment duljine 12, pripadna p-vrijednost iznosipribližno 0,0045. Uočimo da je posljednja p-vrijednost manja od 0,05, što jeuobičajena granica kod koje odbacujemo nulhipotezu (u ovom slučaju o nezavisnom podrijetlu nizova).

Dodatne napomene • Naći optimalno lokalno ili globalno poravnanje zahtjevan je algoritamski problem (riješen je dinamičkim programiranjem) • Needleman-Wunsch (globalno) • Smith-Waterman (lokalno) • Postoji više načina na koji se penaliziraju gapovi u poravnanju, • biološki relevantnim se smatra i afino penaliziranje gapova.

Specificity determining residues • Pretpostavimo da su nam proteini podijeljeni u dvije (funkcionalne) podgrupe, te da nam je dano njihovo višestruko poravnanje from M.Gelfand:Identification of specificity-determining positions in protein alignments

20 aminokiselina

Struktura proteina Primarna struktura: poznat nam je samo niz aminokiselina npr: …V H L T P E E K… Sekundarna struktura: poznate su neki pravilni dijelovi: npr: alpha-helix, beta-sheets Tercijarna struktura: poznat je trodimenzionalan položaj molekula

Evolucijski model za aminokiseline • Kao što smo vidjeli evol. modeli se određuju preko matrica prijelaznih vjerojatnosti -> da bismo ih uveli koristit ćemo matrice substitucije • Matrice supstitucije kao što je BLOSUM (Blocks Substitution Matrices - Henikoff and Henikoff, 1992) također sadrže informacije o vjerojatnosti pojedinih mutacija • Matrice sadrže tzv. log-odds koji se koriste ujedno i za izvođenje skorova tj. score function

Log-odds Gornji izraz se zapravo koristi u definicije fukcije skora s

Uočimo Ovo nam daje sljedeću ideju za model

Testne statistike Krećemo od poravnanja Za dani stupac poravnanja k izračunamo testnu statistiku

Trebaju nam vjerojatnosti da pod H0 na mjestu k vidimo ovako ekstremnu statistiku recimo u, tj. gdje je H0: k nije SDR tj. specificity determining residue (funkcionalno specifična pozicija). • To napravimo za sve stupce, pitanje je da li neki stupci (i koji?) indiciraju posebno značajna i funkcionalno specifična mjesta u poravnanju.

Prema poznatoj statističkoj teoriji log-likelihood ratio statistike poput ove koju mi računamo imaju asimptotski chi-kvadrat razdiobu. (Kod nas uvjeti iza ovakvih teorijski rezultata nisu zadovoljeni) • Mi simulacijama određujemo približnu razdiobu za testnu statistiku pod nul-hipotezom • Tako određujemo približne p-vrijednosti • No i dalje provodimo puno testova! Svaki nam daje svoju p-vrijednost

Stoga pitanje moramo preformulirati: Koliko je vjerojatno da vidimo ovako male p-vrijednosti ako vrijedi H0: niti jedan k nije SDR? Tj. želimo znati:

Uvijek možemo odrediti gornju granicu tzv. Bonferroni korekciju Stoga naše rezultate proglašavamo značajnim (i odbacujemo H0 ) ako je Kako su u stvarnosti susjedne pozicije pozitivno korelirane, pa prema tome i testne statistike ovo je vrlo gruba ocjena Dovest će do konzervativnog testa, male jakosti.

Alternativni pristupi višestrukom testiranju hipoteza • Permutation test • False discovery rate - FDR ukoliko je izvedeno m testova

Alternativni pristupi otkrivanju SDR: Mutual information, Z-scores. • Between Group Analysis (BGA), Higgins, Wallace (2007.) • Sequence Harmony (SH), Heringa, Feenstra, Pirovano, Krab (2007.) • SDPpred, Rakhmaninova et al. (2004.)

Usporedba s objavljenim rezultatima u literaturi. Top 10 naših rangiranih pozicija su ujedno signifikantne čak i uz Bonferroni korekciju na nivou znač. 10%

Sažetak predložene procedure • SDR predstavljaju mjesta na proteinima koja (potencijalno) specificiraju njihovu funkciju • Odrediti ih nije jednostavno. Moramo posebno voditi računa o višestrukom testiranju. • Procedura je implementirana online: compbio.math.hr • Nezavršen projekt: za sada radimo samo sa dvije grupe

Protein clustering • Esencijalno isti vjerojatnosni model, iskoristili smo u izradi algoritma za klasteriranje neke familije proteina v. Goldstein et al (2009): Clustering of protein domains for functional and evolutionary studies, BMC Bioinformatics

Drugi primjeri Višestruko testiranje hipoteza javlja se i u • Mapiranju tzv QTLova (odn. gena) • Analizi DNA microarrays • Forenzičkoj DNA analizi • Filogenetskoj analizi • itd.

Literatura “Biological sequence analysis” by Durbin, Eddy, Krogh, Mitchinson “Introduction to computationalbiology” by Waterman Vidi također http://www.cs.tau.ac.il/~bchor/CG05/CG1-alignment.pps, http://ai.stanford.edu/~serafim/CS262_2005/Slides/CS262_2005_Lecture2.ppt, Wikipedia za dodatne informacije o biološkoj analizi nizova

Acknowledgments P. Goldstein (PMF-MO) J. Žućko(PBF) I. Vujaklija (FER) D. Špoljarić (PBF)

Bioinformatika: iz statisti čke perspektive

Bioinformatika: iz statisti čke perspektive

Presentation Transcript

Selbstbildung in und von Kindergruppen Gruppenprozesse bei Drei-Sechsjährigen

MINT- Herausforderungen aus der Perspektive von Lernforschung: Anforderungen an die Bildungspolitik

Staat

BIOINFORMATIKA

Aktiv und Passiv

Social Media: Unternehmen stellen sich vor Aditya Siddhartha Chaturvedula Konstantina Dalgiannaki Nadine Mensdorf

Geometrie als Werkzeug der Kunst: Perspektive in der Malerei

Dr. Flavio Luiz Schieck Valente Generalsekretär von FIAN International Heidelberg, Januar 2012

PERSPEKTIVE IM UNTERRICHT – TMU 2012

Bevezetés a bioinformatikába

Izbori za Hrvatski sabor 2011. godine iz sociološke perspektive

BIOINFORMATIKA

Was charakterisiert Menschen mit chronischer (Alkohol-)Abhängigkeit und Mehrfachschädigung ?

Sinn und Spiritualität

STRUKTŪRINĖ IR FUNKCINĖ GENOMIKA, PROTEOMIKA IR BIOINFORMATIKA

Konsum? Ökologisch und fair! Wege vom Wissen zum Handeln Ellen Matthies

Frauen

PERSPEKTIVE ohne Grenzen e.V .

Geogra phical analys is

BIOINFORMATIKA

DEVIZNI TEČAJ I GOSPODARSTVO PROBLEMI IZBORA TEČAJNIH REŽIMA

5. Hallescher Input-Output-Workshop 2010 Achim Diekmann