1 / 30

Ocena przydatności modeli Markowa do różnych zastosowań w bioinformatyce

Ocena przydatności modeli Markowa do różnych zastosowań w bioinformatyce. Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytet Warszawski. Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski.

eaton-watts
Download Presentation

Ocena przydatności modeli Markowa do różnych zastosowań w bioinformatyce

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ocena przydatności modeli Markowa do różnych zastosowań w bioinformatyce Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytet Warszawski Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

  2. Modele Markowa w identyfikacji i lokalizacji sekwencji kodujących w genomie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

  3. Używanie kodonu Prototyp kodonu Modele Markowa Asymetria pozycji Indeks okresowej asymetrii Identyfikacja regionów kodujących w genomie Metody oparte na wzorcowym DNA kodującym Metody niezależne od wzorcowego DNA kodującego wykorzystujące: wykorzystujące: występowanie oligonukleotydów tendencje w obsadzeniu pozycji kodonu zależności w obsadzeniusąsiadujących pozycji tendencje w obsadzeniu pozycji kodonu okresową korelację między pozycjami nukleotydów Używanie amino-kwasu Preferencje kodonów Średnia informacja względna Używanie heksamerów Widma Fouriera

  4. Metody wymagające wzorcowego DNA kodującego Tendencje w obsadzeniu kolejnych sąsiadujących pozycji Modele Markowa(Markov Models) W modelach Markowa prawdopodobieństwo wystąpienia danego nukleotydu w określonej pozycji kodonu zależy od rodzaju nukletydu(-ów) bezpośrednio poprzedzającego (-ych) w sekwencji. Najprostszym przykładem jest model Markowa I rzędu. Model Markowa I rzędu oparty jest na prawdopodobieństwie napotkania każdego z 4 nukletydów w każdej z trzech pozycji kodonu, uwzględniającym zależność od rodzaju nukleotydu, który tę pozycje poprzedza. W metodzie tej wykorzystuje się trzy 4x4 macierze tranzycji (F1, F2 i F3), z których każda odnosi się do każdej z trzech pozycji kodonu. Stosowane są modele Markowa rzędu od 1 do 5.

  5. Genetic conditioning of the amino acid replacement probabilities and spectrum in molecular evolution

  6. Do the amino acids possess their pedigree ? or... Do they contain the information about their history (genealogy)? or... Can the amino acid mutational replacements described as Markovian processes ?

  7. The Markov model assumes that the substitution probability of amino acid AA1 by AA2 is the same, regardless of what the initial residue AA1 was transformed from (AAx,AAy) Pa AAx AA1 AA2 Pb AAy AA1 AA2 Pa = Pb The currently used statistical algorithms are based on Markovian model of the amino acid replacement (they directly use stochastic matrices of replacement frequency indices)

  8. PAM250 matrix of amino acid replacements Why tryptophane is here the most conservative residue?

  9. BLOSUM62 matrix of amino acid replacements

  10. Replacemant Arg  Lys according to the statistical interpretation using stochastical matrix indices Arg Lys

  11. Diagram of genetic relationships between amino acids

  12. Diagram of amino acid genetic relationships Diagram of codon genetic relationships

  13. ? Arginine-to-lysine mutational conversion pathways for arginines of different origin

  14. Possible single-point-mutational processing of serine with respect to its origin Trp Asn UGG AAU Ser Ser UCG AGU Thr Ala Pro Thr Ile Asn Ser Trp Leu Ser Arg Cys (UAG) Gly

  15. Amino acid mutational substitution based on the single transition/transversion is NOT the Markovian process Theoretical proof The conversion pathway of arginine into lysine, glutamine and serine for arginine resulting from the processing of the codons encoding different amino acids Possible codons for arginine:AGA AGG CGA CGG CGC CGT

  16. Met Lys ATG AAG Gln CAR Leu Lys CTR AAR Arg AGR Ser AGY His Arg Lys CAY AGR AAR Arg CGR Conversion of arginine into lysine

  17. Met Ser ATG AGY Arg AGR Leu Ser CTR AGY Arg CGY Ser His AGY CAY Conversion of arginine into serine

  18. Lys AAG Gln Met CAG ATG Arg CGG Leu Gln CTR CAR His CAY Gln His CAR CAY Arg CGR Conversion of arginine into glutamine

  19. then... Probability of the replacement of one amino acid into another depends significantly on what amino acids occupied that position in the past There is a high risk, that commonly used algorithms applying the stochastic data matrices (MDM, PAM, BLOSUM) lead to the wrong interpretation of mutational processes occurring in proteins

  20. R R Genetic relationhips between Arg and Met/Gln Q K E – Q K E – N D H Y N D H Y R G – R G W S G R C S G R C T A P S T A P S T A P S T A P S I V L L M V L L I V L F I V L F

  21. Arg-Met and Arg-Gln substitutions. „Two kinds” of arginine

  22. PAM250 matrix of amino acid replacements C 12 S 0 2 T - 2 1 3 P - 3 1 0 6 A - 2 1 1 1 2 G - 3 1 0 - 1 1 5 N - 4 1 0 - 1 0 0 2 D - 5 0 0 - 1 0 1 2 4 E - 5 0 0 - 1 0 0 1 3 4 Q - 5 - 1 - 1 0 0 - 1 1 2 2 4 H - 3 - 1 - 1 0 - 1 - 2 2 1 1 3 6 - 4 0 - 1 0 - 2 - 3 0 - 1 - 1 1 2 6 R K - 5 0 0 - 1 - 1 - 2 1 0 0 1 0 3 5 M - 5 - 2 - 1 - 2 - 1 - 3 - 2 - 3 - 2 - 1 - 2 0 0 6 I - 2 - 1 0 - 2 - 1 - 3 - 2 - 2 - 2 - 2 - 2 - 2 - 2 2 5 L - 6 - 3 - 2 - 3 - 2 - 4 - 3 - 4 - 3 - 2 - 2 - 3 - 3 4 2 6 V - 2 - 1 0 - 1 0 - 1 - 2 - 2 - 2 - 2 - 2 - 2 - 2 2 4 2 4 F - 4 - 3 - 3 - 5 - 5 - 5 - 4 - 6 - 5 - 5 - 2 - 4 - 5 0 1 2 - 1 9 Y 0 - 3 - 3 - 5 - 3 - 5 - 2 - 4 - 4 - 4 0 - 4 - 4 - 2 - 1 - 1 - 2 7 10 W - 8 - 2 - 5 - 6 - 6 - 7 - 4 - 7 - 7 - 5 - 3 2 - 3 - 4 - 5 - 2 - 6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W

  23. PAM250 and BLOSUM62 scores for the replacements: Arg-Lys Lys-Gln Lys-Glu Arg-Gln and Arg-Glu

  24. K E Q K E Q R R R R Genetic relationships among Arg, Lys, Glu and Gln – – N D H Y N D H Y G – G W S G R C S G R C T A P S T A P S T A P S T A P S I V L L M V L L I V L F I V L F

  25. Arg-Glu and Lys-Glu substitutions (Arg/Lys/Gln/Glu replacements)

  26. Multiple alignment of seven chicken ovoinhibitor domains obtained with Markovian and non-Markovian methods

  27. AlaGCG ValGUG What part of the codon contains the information about the previous amino acid that occurred at certain position of the protein sequence? At most 2/3 of the entire codon.

  28. ValGUG MetAUG IleAUA SerUCU ThrACU SerAGU AsnAAC AspGAC HisCAC GlnCAG GluGAG AspGAU TyrUAU HisCAU AsnAAU LysAAG GlnCAG HisCAC . . . How long is the information about codons of preceeding amino acids stored? The shortest storage period is 3 transitions/transversions AlaGCG SerUCC Theoreticaly the longest period is infinite LysAAA

  29. CONCLUSIONS The analysis of genetic semihomology excludes applicability of Markov model for the studies on protein variability at the amino acid level. The amino acid codons do contain the information about the „ancestral” amino acids, whose codons were the starting point to the codon of current residue. It refers mainly to the positions undergoing single-point mutations as the most basic mechanism of evolutionary variability.

  30. Thank you for your attention ! Thank you for your attention!

More Related