430 likes | 562 Views
HK07 – Les 6 Toepassingen van verborgen Markov modellen. Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002. Toepassingen van verborgen Markov modellen. Profiel-HMMs Schatting Databanksearch Alignering Genvoorspelling Elementen voor genvoorspelling
E N D
HK07 – Les 6Toepassingen van verborgen Markov modellen Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002
Toepassingen van verborgen Markov modellen • Profiel-HMMs • Schatting • Databanksearch • Alignering • Genvoorspelling • Elementen voor genvoorspelling • Prokaryoten vs. eukaryoten • Genvoorspelling via homologie • GENSCAN
GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV IHWWRVqd.rngheGYVPSSYL KDWWKVev..ndrqGFVPAAYV Profiel-HMMs • Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering • Voorbeeld • Deel van een alignering van het SH3 domein • Twee geconserveerde gebieden gescheiden door een variabele regio
Profiel-HMMs • We kunnen de twee geconserveerde gebieden modelleren via een soort Positie-Specifieke ScoringsMatrix (PSSM) • Probleem met variabele regio (geen vaste lengte) • Probleem met deleties in geconserveerde gebieden
Bgn End Profiel-HMMs • Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering • Match-, insertie-, en deletietoestanden Deletie Insertie Match
Stille deletietoestanden • Deleties zouden gemodelleerd kunnen worden met shortcut jumps tussen toestanden • Probleem : aantal transities groeit kwadratisch • Andere oplossing : gebruik parallelen toestanden die geen symbool kunnen produceren (stille toestanden)
GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV IHWWRVqd.rngheGYVPSSYL KDWWKVev..ndrqGFVPAAYV Overeenkomstige profiel-HMM .85 HMM uit meervoudige alignering Meervoudige alignering (+ geconserveerde kolommen) Parameter schatting = schatting met gekende paden
.33 .85 Nieuw profiel-HMM Pseudocounts • Waarschijnlijkheden gelijk aan nul in de HMM veroorzaken het afkeuren van sequenties met residus die niet eerder gezien zijn • Om dit probleem te vermijden worden pseudocounts toegevoegd
Databanksearch met profiel-HMMs • Het geschatte model kan gebruikt worden om nieuwe leden van de proteïnefamilie op te sporen in een sequentiedatabank • Voor iedere sequentie in de databank wordt P(x, p* | M) (Viterbi) of P(x | M) (voorwaarts-achterwaarts) berekend • In de praktijk worden log odds berekend (t.o.v. het random model P(x | R))
Alignering met profiel-HMMs • Via Viterbi (zoeken naar het beste aligneringspad) kunnen sequenties gealigneerd worden t.o.v. een profiel-HMM • Trainingsequenties • Databankmatches
Meervoudige alignering met profiel-HMM • Indien de sequenties niet gealigneerd zijn is het toch mogelijk een profiel-HMM te trainen • Initialisatie : kies de lengte van de profiel-HMM • Lengte van profiel-HMM is aantal matchtoestand sequentielengte • Training : schat het model via Viterbi training of Baum-Welch training • Heuristieken om lokale minimas te voorkomen • Meervoudige alignering : gebruik Viterbi decoding om de sequenties te aligneren
Uitbreidingen • Meer gesofisticeerde pesudocounts kunnen gebruikt worden • Dirichlet mengelingen • Substitutiematrixmengelingen • Aligneringsvarianten zijn mogelijk • Locale alignering • Methoden zijn beschikbaar om de matchtoestanden vs. de insertietoestanden systematisch te bepalen • Methoden zijn beschikbaar om sequenties te wegen in functie van evolutieafstanden
Software voor profiel-HMMs • SAM: University of California Santa Cruz • http://www.cse.ucsc.edu/research/compbio/sam.html • Web service: http://www.cse.ucsc.edu/research/compbio/HMM-apps/HMM-applications.html • Hmmer (‘hammer’): Washington University, St. Louis • http://genome.wustl.edu/eddy/hmmer.html
Proteïnefamilies • PFAM • http://www.sanger.ac.uk/Software/Pfam/search.shtml • Verzameling van proteïnefamilies en proteïnedomeinen • Meervoudige aligneringen van de proteïnefamilies t.o.v. hun domeinen • Domeinorganizatie van proteïnen die worden gematched aan een familie • Profiel-HMMs van de domeinen
Overzicht • Elementen voor genvoorspelling • Prokaryoten vs. eukaryoten • Genvoorspelling via homologie • GENSCAN
Elementen voor genvoorspelling • Moeilijk probleem • Genomische signalen zijn gedegenereerd • Sequentiefouten • Prokaryoten vs. eukaryoten • Hogere densiteit van genen in prokaryoten • Geen intronen in prokaryoten • Aanwijzingsbronnen (positief en negatief) • Similariteit met features die coderende gebieden meestal niet overlappen (e.g., Alu repeats) • Sequentie similariteit met gekende genen (e.g., gevonden via BLASTX) • Statistische maat van codonvoorkeur • Templatematches met functionele lokaties (e.g., splice site) • De voorspelde structuur moet de biologische grammatica respecteren (promotor, exon, intron, ...)
‘Search by signal vs. search by content’ • Search by signal • Opsporing van korte signalen in het genoom • e.g., splice site, kernpromotor • Positiegewichtsmatrices en neurale netwerken zijn hier bruikbaar • Search by content • Opsporing van specifieke uitgestrekte gebieden op basis van uitgemiddelde frequenties • e.g., coderende gebieden, CpG eilanden • Verborgen Markov modellen zijn hier bruikbaar • Genevoorspellingsalgoritmes combineren beiden standpunten
Probabilistische modellering vs. homologie • Verborgen Markov modellen kunnen gebruikt worden voor genvoorspelling • Homologie van een sequentie met een gekend gen geeft ook een sterke aanwijzing voor het bestaan van een gen in deze sequentie • Genvoorspelling kan de twee aanpakken combineren
Problemen : prokaryoten • Korte genen zijn moeilijk te detecteren • Operonen • Overlappende genen
Transcriptiestart en stop -35 regio TATA box Translatiestart en stop Open Reading Frames Shine-Delgarno motief Start ATG/GTG Stop TAA/TAG/TGA Stem-loops Operon Signalen in prokaryoten
Transcriptie Promotor/enhancer/silencer TATA box Introns/exons Donor/acceptor/branch polyA Repeats Alu, satelieten, expansies CpG eilanden Cap/CCAAT&GC boxes Translation 5’ and 3’ UTR Kozak consensus Start ATG Stop TAA/TAG/TGA Signalen in eukaryoten
Intron-exonsplitsing • Consensus • Donor • (A,C)AG/GT(A,G)AGT • Acceptor • TTTTTNCAG/GCCCCC • Branch • CT(G,A)A(C,T)
Probleem : pseudogenen • Verlies van promoter, extra stop codon, frameshift • Translocatie, duplicatie
Probleem : RNA genen • rRNA (ribosoom) • tRNA (transfer) • snRNA (splitsing) • tmRNA (telomerase)
Genvoorspelling via homologie • Coderende gebieden evolueren trager dan niet coderende gebied (geconserveerd door natuurlijke selectie omwille van hun functionele rol) • Niet enkel de proteïnesequentie maar ook de genstructuur kan geconserveerd zijn • Gebruik van standard homologiemethoden • Gensyntax moet gerespecteerd worden
Procrustes • Vind mogelijke gerelateerde proteïnen met BLASTX (= modelsequenties) • Vind alle mogelijke blokken (exonen) op basis van acceptor/donor lokaties • Zoek welke blokken kunnen gealigneerd worden met modelsequenties • Zoek de beste alignering van blokken met de query-sequentie
Genvoorspelling via homologie • Voordelen • Erkenning van korte exonen en atypische exonen • Juiste assemblage van complexe genen (> 10 exonen) • Nadelen • Genen zonder gekenden homologen worden gemist • Goede homologen nodig voor voorspelling van genstructuur • Zeer gevoelig voor sequentiefouten
GENSCAN • GENSCAN werd gebruikt voor de annotatie van het menselijk genoom in het Human Genome Project • Genvoorspelling m.b.v. verborgen semi-Markov modellen (Hidden Semi-Markov Model) • Verschillende modellen in functie van GC-inhoud (<43% G+C, 43-50%, 50-57%, >57%)
Signaal : menselijke splice site • 5’ splice site • 3’ splice site
Voorbeeld • Knopen van HSMM • Positie-gewichtsmatrix (signal) • Hogere orde positie-gewichtsmatrix • HMM (content)
Training van HSMM Viterbi algoritme voor HSMMs Viterbi algoritme