1 / 43

HK07 – Les 6 Toepassingen van verborgen Markov modellen

HK07 – Les 6 Toepassingen van verborgen Markov modellen. Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002. Toepassingen van verborgen Markov modellen. Profiel-HMMs Schatting Databanksearch Alignering Genvoorspelling Elementen voor genvoorspelling

Download Presentation

HK07 – Les 6 Toepassingen van verborgen Markov modellen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HK07 – Les 6Toepassingen van verborgen Markov modellen Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002

  2. Toepassingen van verborgen Markov modellen • Profiel-HMMs • Schatting • Databanksearch • Alignering • Genvoorspelling • Elementen voor genvoorspelling • Prokaryoten vs. eukaryoten • Genvoorspelling via homologie • GENSCAN

  3. GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV IHWWRVqd.rngheGYVPSSYL KDWWKVev..ndrqGFVPAAYV Profiel-HMMs • Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering • Voorbeeld • Deel van een alignering van het SH3 domein • Twee geconserveerde gebieden gescheiden door een variabele regio

  4. Profiel-HMMs • We kunnen de twee geconserveerde gebieden modelleren via een soort Positie-Specifieke ScoringsMatrix (PSSM) • Probleem met variabele regio (geen vaste lengte) • Probleem met deleties in geconserveerde gebieden

  5. Bgn End Profiel-HMMs • Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering • Match-, insertie-, en deletietoestanden Deletie Insertie Match

  6. Stille deletietoestanden • Deleties zouden gemodelleerd kunnen worden met shortcut jumps tussen toestanden • Probleem : aantal transities groeit kwadratisch • Andere oplossing : gebruik parallelen toestanden die geen symbool kunnen produceren (stille toestanden)

  7. GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV IHWWRVqd.rngheGYVPSSYL KDWWKVev..ndrqGFVPAAYV Overeenkomstige profiel-HMM .85 HMM uit meervoudige alignering Meervoudige alignering (+ geconserveerde kolommen) Parameter schatting = schatting met gekende paden

  8. .33 .85 Nieuw profiel-HMM Pseudocounts • Waarschijnlijkheden gelijk aan nul in de HMM veroorzaken het afkeuren van sequenties met residus die niet eerder gezien zijn • Om dit probleem te vermijden worden pseudocounts toegevoegd

  9. Databanksearch met profiel-HMMs • Het geschatte model kan gebruikt worden om nieuwe leden van de proteïnefamilie op te sporen in een sequentiedatabank • Voor iedere sequentie in de databank wordt P(x, p* | M) (Viterbi) of P(x | M) (voorwaarts-achterwaarts) berekend • In de praktijk worden log odds berekend (t.o.v. het random model P(x | R))

  10. Alignering met profiel-HMMs • Via Viterbi (zoeken naar het beste aligneringspad) kunnen sequenties gealigneerd worden t.o.v. een profiel-HMM • Trainingsequenties • Databankmatches

  11. Meervoudige alignering met profiel-HMM • Indien de sequenties niet gealigneerd zijn is het toch mogelijk een profiel-HMM te trainen • Initialisatie : kies de lengte van de profiel-HMM • Lengte van profiel-HMM is aantal matchtoestand  sequentielengte • Training : schat het model via Viterbi training of Baum-Welch training • Heuristieken om lokale minimas te voorkomen • Meervoudige alignering : gebruik Viterbi decoding om de sequenties te aligneren

  12. Uitbreidingen • Meer gesofisticeerde pesudocounts kunnen gebruikt worden • Dirichlet mengelingen • Substitutiematrixmengelingen • Aligneringsvarianten zijn mogelijk • Locale alignering • Methoden zijn beschikbaar om de matchtoestanden vs. de insertietoestanden systematisch te bepalen • Methoden zijn beschikbaar om sequenties te wegen in functie van evolutieafstanden

  13. Software voor profiel-HMMs • SAM: University of California Santa Cruz • http://www.cse.ucsc.edu/research/compbio/sam.html • Web service: http://www.cse.ucsc.edu/research/compbio/HMM-apps/HMM-applications.html • Hmmer (‘hammer’): Washington University, St. Louis • http://genome.wustl.edu/eddy/hmmer.html

  14. Proteïnefamilies • PFAM • http://www.sanger.ac.uk/Software/Pfam/search.shtml • Verzameling van proteïnefamilies en proteïnedomeinen • Meervoudige aligneringen van de proteïnefamilies t.o.v. hun domeinen • Domeinorganizatie van proteïnen die worden gematched aan een familie • Profiel-HMMs van de domeinen

  15. Genvoorspelling

  16. Overzicht • Elementen voor genvoorspelling • Prokaryoten vs. eukaryoten • Genvoorspelling via homologie • GENSCAN

  17. DNA makes RNA makes proteins

  18. Elementen voor genvoorspelling • Moeilijk probleem • Genomische signalen zijn gedegenereerd • Sequentiefouten • Prokaryoten vs. eukaryoten • Hogere densiteit van genen in prokaryoten • Geen intronen in prokaryoten • Aanwijzingsbronnen (positief en negatief) • Similariteit met features die coderende gebieden meestal niet overlappen (e.g., Alu repeats) • Sequentie similariteit met gekende genen (e.g., gevonden via BLASTX) • Statistische maat van codonvoorkeur • Templatematches met functionele lokaties (e.g., splice site) • De voorspelde structuur moet de biologische grammatica respecteren (promotor, exon, intron, ...)

  19. ‘Search by signal vs. search by content’ • Search by signal • Opsporing van korte signalen in het genoom • e.g., splice site, kernpromotor • Positiegewichtsmatrices en neurale netwerken zijn hier bruikbaar • Search by content • Opsporing van specifieke uitgestrekte gebieden op basis van uitgemiddelde frequenties • e.g., coderende gebieden, CpG eilanden • Verborgen Markov modellen zijn hier bruikbaar • Genevoorspellingsalgoritmes combineren beiden standpunten

  20. Probabilistische modellering vs. homologie • Verborgen Markov modellen kunnen gebruikt worden voor genvoorspelling • Homologie van een sequentie met een gekend gen geeft ook een sterke aanwijzing voor het bestaan van een gen in deze sequentie • Genvoorspelling kan de twee aanpakken combineren

  21. Problemen : prokaryoten • Korte genen zijn moeilijk te detecteren • Operonen • Overlappende genen

  22. Transcriptiestart en stop -35 regio TATA box Translatiestart en stop Open Reading Frames Shine-Delgarno motief Start ATG/GTG Stop TAA/TAG/TGA Stem-loops Operon Signalen in prokaryoten

  23. Transcriptie Promotor/enhancer/silencer TATA box Introns/exons Donor/acceptor/branch polyA Repeats Alu, satelieten, expansies CpG eilanden Cap/CCAAT&GC boxes Translation 5’ and 3’ UTR Kozak consensus Start ATG Stop TAA/TAG/TGA Signalen in eukaryoten

  24. Centraal dogma

  25. Promotor, enhancers en silencers

  26. Intron-exonsplitsing • Consensus • Donor • (A,C)AG/GT(A,G)AGT • Acceptor • TTTTTNCAG/GCCCCC • Branch • CT(G,A)A(C,T)

  27. Probleem : alternatieve splitsing

  28. Probleem : pseudogenen • Verlies van promoter, extra stop codon, frameshift • Translocatie, duplicatie

  29. Probleem : RNA genen • rRNA (ribosoom) • tRNA (transfer) • snRNA (splitsing) • tmRNA (telomerase)

  30. Genvoorspelling via homologie

  31. Genvoorspelling via homologie • Coderende gebieden evolueren trager dan niet coderende gebied (geconserveerd door natuurlijke selectie omwille van hun functionele rol) • Niet enkel de proteïnesequentie maar ook de genstructuur kan geconserveerd zijn • Gebruik van standard homologiemethoden • Gensyntax moet gerespecteerd worden

  32. Genvoorspelling via homologie

  33. Procrustes • Vind mogelijke gerelateerde proteïnen met BLASTX (= modelsequenties) • Vind alle mogelijke blokken (exonen) op basis van acceptor/donor lokaties • Zoek welke blokken kunnen gealigneerd worden met modelsequenties • Zoek de beste alignering van blokken met de query-sequentie

  34. Genvoorspelling via homologie • Voordelen • Erkenning van korte exonen en atypische exonen • Juiste assemblage van complexe genen (> 10 exonen) • Nadelen • Genen zonder gekenden homologen worden gemist • Goede homologen nodig voor voorspelling van genstructuur • Zeer gevoelig voor sequentiefouten

  35. GENSCAN

  36. GENSCAN • GENSCAN werd gebruikt voor de annotatie van het menselijk genoom in het Human Genome Project • Genvoorspelling m.b.v. verborgen semi-Markov modellen (Hidden Semi-Markov Model) • Verschillende modellen in functie van GC-inhoud (<43% G+C, 43-50%, 50-57%, >57%)

  37. Typische genstructuur

  38. Signaal : menselijke splice site • 5’ splice site • 3’ splice site

  39. Verborgen semi-Markov modellen

  40. Voorbeeld • Knopen van HSMM • Positie-gewichtsmatrix (signal) • Hogere orde positie-gewichtsmatrix • HMM (content)

  41. Architectuur van GENSCAN

  42. Training van HSMM Viterbi algoritme voor HSMMs Viterbi algoritme

More Related