1 / 59

LU, 2014, Juris V īksna

B ioinformā ti ka Virkņu klasifikācija - profili, paterni un motīvi Sequence classification - profiles, patterns and motifs Daudzu virkņu vienlaicīga salīdzināšana Multiple a lignment. LU, 2014, Juris V īksna. Šīs lekcijas tematika. Profili, paterni un motīvi:

corina
Download Presentation

LU, 2014, Juris V īksna

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformātika Virkņu klasifikācija - profili, paterni un motīvi Sequence classification - profiles, patterns and motifs Daudzu virkņu vienlaicīga salīdzināšana Multiple alignment LU, 2014,Juris Vīksna

  2. Šīs lekcijas tematika • Profili, paterni un motīvi: • virkņu klasifikācijas problēma • profili, to atrašana un pielietošana • sliekšņu izvēle (ROC līknes) • paterni • HMM • Daudzu virkņu vienlaicīga salīdzināšana (multiple alignment) • problēmas nostādne • scoring funkcijas • DP algoritms • heiristiskās metodes (star alignment, progressive alignment, tree alignment) • alignmentu uzlabošana

  3. MSA - Piemērs [Adapted from R.Shamir]

  4. Virkņu klasifikācija Dotas vairākas homologas virknes, kopā ar alignment-u (par to, kā tādu atrast, pēc brīža :) Mēs gribam atrast šīs homologu grupas raksturojumu, kuru tad varētu salīdzināt ar citām, vēl neizpētītām virknēm

  5. Transitive sequence comparison Position specific iterative BLAST (PSI-BLAST)

  6. Profili, motīvi, HMM • Fuse multiple alignment into: • - Motif: a short  signature pattern identified in the  conserved region of the multiple alignment • - Profile: frequency of each amino acid at each position is estimated • HMM: Hidden Markov Model, a generalized profile in rigorous mathematical terms Can get more sensitive searches with these multiple alignment representations (Run the profile against the DB.) [Adapted from M.Gerstein]

  7. Profili Profile : a position-specific scoring matrix composed of 21 columns and N rows (N=length of sequences in multiple alignment) [Adapted from M.Gerstein]

  8. EGF Profile Generated for SEARCHWISE Cons  A    C    D    E    F    G    H    I    K    L    M    N    P    Q    R    S    T    V    W    Y  Gap   V   -1   -2   -9   -5  -13  -18   -2   -5   -2   -7   -4   -3   -5   -1   -3    0    0   -1  -24  -10  100 D    0  -14   -1   -1  -16  -10    0  -12    0  -13   -8    1   -3    0   -2    0    0   -8  -26   -9  100 V    0  -13   -9   -7  -15  -10   -6   -5   -5   -7   -5   -6   -4   -4   -6   -1    0   -1  -27  -14  100 D    0  -20   18   11  -34    0    4  -26    7  -27  -20   15    0    7    4    6    2  -19  -38  -21  100 P    3  -18    1    3  -26   -9   -5  -14   -1  -14  -12   -1   12    1   -4    2    0   -9  -37  -22  100 C    5  115  -32  -30   -8  -20  -13  -11  -28  -15   -9  -18  -31  -24  -22    1   -5    0  -10   -5  100 A    2   -7   -2   -2  -21   -5   -4  -12   -2  -13   -9    0   -1    0   -3    2    1   -7  -30  -17  100 s    2  -12    3    2  -25    0    0  -18    0  -18  -13    4    3    1   -1    7    4  -12  -30  -16   25 n   -1  -15    4    4  -19   -7    3  -16    2  -16  -10    7   -6    3    0    2    0  -11  -23  -10   25 p    0  -18   -7   -6  -17  -11    0  -17   -5  -15  -14   -5   28   -2   -5    0   -1  -13  -26   -9   25 c    5  115  -32  -30   -8  -20  -13  -11  -28  -15   -9  -18  -31  -24  -22    1   -5    0  -10   -5   25 L   -5  -14  -17   -9    0  -25   -5    4   -5    8    8  -12  -14   -1   -5   -7   -5    2  -15   -5  100 N   -4  -16   12    5  -20    0   24  -24    5  -25  -18   25  -10    6    2    4    1  -19  -26   -2  100 g    1  -16    7    1  -35   29    0  -31   -1  -31  -23   12  -10    0   -1    4   -3  -23  -32  -23   50 G    6  -17    0   -7  -49   59  -13  -41  -10  -41  -32    3  -14   -9   -9    5   -9  -29  -39  -38  100 T    3  -10    0    2  -21  -12   -3   -5    1  -11   -5    1   -4    1   -1    6   11    0  -33  -18  100 C    5  115  -32  -30   -8  -20  -13  -11  -28  -15   -9  -18  -31  -24  -22    1   -5    0  -10   -5  100 I   -6  -13  -19  -11    0  -28   -5    8   -4    6    8  -12  -17   -4   -5   -9   -4    6  -12   -1  100 d   -4  -19    8    6  -15  -13    5  -17    0  -16  -12    5   -9    2   -2   -1   -1  -13  -24   -5   31 i    0   -6   -8   -6   -4  -11   -5    3   -5    1    2   -5   -8   -4   -6   -2    0    4  -14   -6   31 g    1  -13    0    0  -20   -3   -3  -12   -3  -13   -8    0   -7    0   -5    2    0   -7  -29  -16   31 L   -5  -11  -20  -14    0  -23   -9    9  -11    8    7  -14  -17   -9  -14   -8   -4    7  -17   -5  100 E    0  -20   14   10  -33    5    0  -25    2  -26  -19   11   -9    4    0    3    0  -19  -34  -22  100 S    3  -13    4    3  -28    3    0  -18    2  -20  -13    6   -6    3    1    6    3  -12  -32  -20  100 Y  -14   -9  -25  -22   31  -34   10   -5  -17    0   -1  -14  -13  -13  -15  -14  -13   -7   17   44  100 T    0  -10   -6   -1  -11  -16   -2   -7   -1   -9   -5   -3   -9    0   -1    1    3   -4  -16   -8  100 C    5  115  -32  -30   -8  -20  -13  -11  -28  -15   -9  -18  -31  -24  -22    1   -5    0  -10   -5  100  R    0  -13    0    2  -19  -11    1  -12    4  -13   -8    3   -8    4    5    1    1   -8  -23  -13  100 C    5  115  -32  -30   -8  -20  -13  -11  -28  -15   -9  -18  -31  -24  -22    1   -5    0  -10   -5  100 P    0  -14   -8   -4  -15  -17    0   -7   -1   -7   -5   -4    6    0   -2    0    1   -3  -26  -10  100 P    1  -18   -3    0  -24  -13   -3  -12    1  -13  -10   -2   15    2    0    2    1   -8  -33  -19  100 G    4  -19    3   -4  -48   53  -11  -40   -7  -40  -31    5  -13   -7   -7    4   -7  -29  -39  -36  100 y  -22   -6  -35  -31   55  -43   11   -1  -25    6    4  -21  -34  -20  -21  -22  -20   -7   43   63   50 S    1   -9   -3   -1  -14   -7    0  -10   -2  -12   -7    0   -7    0   -4    4    4   -5  -24   -9  100 G    5  -20    1   -8  -52   66  -14  -45  -11  -44  -35    4  -16  -10  -10    4  -11  -33  -40  -40  100 E    2  -20   10   12  -31   -7    0  -19    6  -20  -15    5    4    7    2    4    2  -13  -38  -22  100 R   -5  -17    0    1  -16  -13    8  -16    9  -16  -11    5  -11    7   15   -1   -1  -13  -18   -6  100 C    5  115  -32  -30   -8  -20  -13  -11  -28  -15   -9  -18  -31  -24  -22    1   -5    0  -10   -5  100 E    0  -26   20   25  -34   -5    6  -25   10  -25  -17    9   -4   16    5    3    0  -18  -38  -23  100 T   -4  -11  -13   -8   -1  -21    2    0   -4   -1    0   -6  -14   -3   -5   -4    0    0  -15    0  100 D    0  -18    5    4  -24  -11   -1  -11    2  -14   -9    1   -6    2    0    0    0   -6  -34  -18  100 I    0  -10   -2   -1  -17  -14   -3   -4   -1   -9   -4    0  -11    0   -4    0    2   -1  -29  -14  100 D   -4  -15   -1   -2  -13  -16   -3   -8   -5   -6   -4   -1   -7   -2   -7   -3   -2   -6  -27  -12  100 Cons. Cys [Adapted from M.Gerstein]

  9. Profili Matrica M ar izmēriem 20xn (vai 21xn) kur m(i,j) ir varbūtība, ka i-jā pozīcijā ir j-tā aminoskābe. Ja dota virkne a1...an, tad varbūtība, ka tā atbilst dotajam profilam būs p = m(1,a1)·...·m(n,an). Vai arī, mēs matricā varam salikt varbūtību logaritmus, tad varbūtību varēs aprēķināt šādi: p = exp(m(1,a1)+...+m(n,an)).

  10. Profilu atrašana [Adapted from M.Singh

  11. Profilu atrašana [Adapted from M.Singh

  12. Profilu pielietošana [Adapted from M.Singh

  13. Motīvi - PROSITEpaterni PROSITE Database of protein families and domains http://www.expasy.org/prosite/ 31.10.2006 - 1331 paterni un 675 profili  +-------------------+       +-------------------------+               |                   |        |                         |x(4)-C-x(0,48)-C-x(3,12)-C-x(1,70)-C-x(1,6)-C-x(2)-G-a-x(0,21)-G-x(2)-C-x      |                   |         ************************************     +-------------------+ 'C': conserved cysteine involved in a disulfide bond.'G': often conserved glycine'a': often conserved aromatic amino acid'*': position of both patterns.'x': any residue -Consensus pattern: C-x-C-x(5)-G-x(2)-C [Adapted from M.Gerstein]

  14. Motīvi - PROSITEpaterni Atrast PROSITE patternu sekojošām virknēm: GRABCDA-B GRADC-A-B GAABCDA-B GRABCDA-C GAABCCA-B GRA-CDA-C GRABBDA-B G_ABCDA-B GRABBDA-C GRABCCA-B Paterna piemērs: [LIY]-x-A-C-V-[DNQ]-x(3)-[RS]-x(2,4)-[PS]

  15. HMM proteīnu virknēm [Adapted from R.B.Altman]

  16. HMM algoritmiskās problēmas Easy (DP) :) - Viterbi algorithm Hard :( - Baum-Welsch algorithm [Adapted from R.B.Altman]

  17. MSA - Motivācija Viena no spēcīgakajām metodēm molekulārajā bioloģijā • Palīdz atklāt filoģenētiskās sakarības • Palīdz saprast evolūcijas mehānismu, kas iedarbojas uz gēnu • Palīdz formulēt un pārbaudīt hipotezes par proteīnu 3D struktūru (balstītu uz “saglabātajiem” apgabaliem) • Palīdz formulēt un pārbaudīt hipotezes par proteīnu funkciju • Palīdz saprast kā ir mainījusies proteīna funkcija • Palīdz meklēt homologas virknes citos organismos • Ļauj atrast paternus proteīnu klasu raksturošanai

  18. MSA - Motivācija Homologu identifikācija salīdzinot virkņu pārus: Virkņu līdzība > 30% OK Līdzība intervālā 15-30% ??? • Vāja līdzība starp divām virknēm kļūst ļoti nozīmīga, ja saglabājas tādi pati arī daudz lielākam virkņu skaitam • Labi raksturo proteīnu domēnus • Labi raksturo gēnu regulācijas apgabalus

  19. MSA - Īsa vēsture • Praktiski lietojamas metodes tikai kopš 1987 • Pirms 1987 tika veikti manuāli • Pamatproblēma: nevar lietot dinamiskās programmēšanas metodes • Pirmā pielietojamā metode: D. Sankoff (1987), balstīta uz filoģenētiku

  20. MSA - Piemērs Multiple sequence alignment of 7 neuroglobins using clustalx [Adapted from C.Struble]

  21. MSA - Piemērs [Adapted from R.Shamir]

  22. MSA - Precīzs formulējums? Kāda precīzi ir “Multiple Alignment” problēma? • Nav vispārpieņemta viedokļa • Aptuveni - “savietot” virknes tā, lai “kopīgā daļa” būtu iespējami garāka • Mēginot precizēt, ko tas nozīmē, iespējami vairāki, nedaudz atšķirīgi, formulējumi • Praktiski, liekas, nav pārāk lielas nozīmes, kuru no tiem izvēlas... • Nedaudz cits jautājums - kādu novērtējumu dot jau atrastam MSA?

  23. MSA - Redukcija uz virkņu pāru savietošanu? GGGTTTAAAAA GGGTTTAAAAA------ AAAAAGGGTTT ------AAAAAGGGTTT TTTAAAAAGGG ---TTTAAAAAGGG--- AAAAA -----GGGTTTAAAAA AAAAAGGGTTT----- GGGTTT --------GGGTTT TTTAAAAAGGG--- GGG Multiple Alignment Repeated Pairwise Alignments

  24. Scoring a multiple alignment A A A A C A C A C A C C A C A Sum of pairs Star Tree [Adapted from D.Fernandez-Baca]

  25. Sum-of-Pairs (SOP) A AAA AAA AAA AAC ACC A C A A A A A A A C 10α + (6α - 4β) + (4α - 6β) A A A C = 20α - 10β [Adapted from D.Fernandez-Baca]

  26. Inducētais pāruAlignment-s S1 S - T I S C T G - S - N I S2 L - T I – C N G S S - N I S3 L R T I S C S G F S Q N I Induced pairwise alignment of S1,S2: S1 S T I S C T G - S N I S2 L T I – C N G S S N I [Adapted from D.Fernandez-Baca]

  27. Sum-of-Pairs novērtējuma funkcija Score of multiple alignmentS= ∑i <j score(Si,Sj) where score(Si,Sj) = score of inducedpairwise alignment Novērtējumu summas vietā varēja izvēlēties arī, piem., maksimumu... vai arī sarežģīt formulu vēl vairāk, dažādojot gap soda punktu rēķināšanu... [Adapted from D.Fernandez-Baca]

  28. MSA un dinamiskās programmēšanas metodes • DP algoritms divām virknēm var tikt vispārināts jebkuram virkņu skaitam • Piemēram, trīs virknēmX,Y,W definējam: • C[i,j,k] = optimālā alignment score priekšvirknēmX[1..i], Y[1..j], W[1..k] • Tāpat kā 2 virknēm, sadala alignment-us klasēs, atkarībā no virkņu pēdējiem simboliem [Adapted from D.Fernandez-Baca]

  29. MSAun dinamiskās programmēšanas metodes 7 veidi, kā var beigties 3 virknes: Xi Yj Wk X1 . . . Xi-1 Xi Y1 . . . Yj-1 Yj W1 . . . Wk-1 Wk - Yj Wk Xi - Wk Xi - - Xi Yj - - Yj - - - Wk [Adapted from D.Fernandez-Baca]

  30. MSAun dinamiskās programmēšanas metodes For 3 seqs. of length n, time is proportional to n3 7 veidi kā iegūt C[i,j,k]: C[i,j,k] C[i-1,j,k-1] C[i-1,j-1,k-1] C[i-1,j,k-1] Enumerate all possibilities and choose the best one [Adapted from D.Fernandez-Baca]

  31. MSAun dinamiskās programmēšanas metodes A S V [Adapted from G.Church]

  32. MSAun dinamiskās programmēšanas metodes V S N — S — S N A — — — — A S Katrs alignment-s ir ceļš 3D DP matricā S A A N S V S N S Start [Adapted from D.Fernandez-Baca]

  33. MSA un DP - Sarežģītība • O(nk) “lauciņi”, kas jāaizpilda • Katrs lauciņšizmanto O(2k) citus • Katra“SOP-score” rēķināšana prasa O(k2) • Kopējais laiks O(k2 2k nk), vai eksponenciāls pec virkņu skaita! • MSA ar“SOP-score” (un jebkuru citu, no praktiskā viedokļa interesantu score)ir NP-pilna problēma [Adapted from C.Struble]

  34. MSA un DP - Sarežģītība • For k sequences of length n, dynamic programming algorithm does (2k-1)nk operations • Example: 6 sequences of length 100 require6.4X1013 calculations • Space for table is nk • Implementations (e.g., WashU MSA 2.1) use tricks and only search subset of dynamic programming table • Even this is expensive. E.g., Baylor CM Search launcher limits MSA to 8 sequences of 800 characters and 10 minutes processing time [Adapted from D.Fernandez-Baca]

  35. Problēmas ar SOP scoring • Pair-wise comparisons can over-score evolutionarily distant pairs. • Reason: For 3 or more sequences, SP scoring does not correspond to any evolutionary tree. But not: [Adapted from D.Fernandez-Baca]

  36. Problēmas ar SOP scoring Risinājumi: • Use weights to incorporate evolution in sum of pairs scoring: • Some pairwise alignments are more important than others • E.g., more important to have a good alignment between mouse and human sequences than mouse and bird • Assign different weights to different pair-wise alignments. • Weight decreases with evolutionary distance. • Use star tree approach • one sequence is assigned as the ancestor and all others are contrasted it.

  37. Consensus virknes A A C C A Star S - virkne;  -virkņu kopa Consensus kļūda: E(S,) = kxd(s,x) Atrast tādu S, kas minimizē E(S,). S - Šteinera virkne

  38. Weighted SOP Human • Heiristisks veids, kā iekļaut evolūcijas koku: Mouse Duck Chicken • Weighted SOP: • S(m) = k,l wkl s(mk, ml) • wkl: svars samazinās līdz ar attālumu [Adapted from S.Batzoglou]

  39. MSA - "lielākās ticamības" koki Ideālā gadījumā - atrast MSA, kas maksimizē varbūtību, ka virknes ir radušās nokopīga senča. x y z ? w v [Adapted from S.Batzoglou]

  40. Aproksimācijas algoritmi Aproksimācijas algoritmi - dotai optimizācijas problēmai atrod ne gluži labāko risinājumu, bet ar garantiju ne vairāk kā x reizes sliktāku G - k “zvaigžņu kopa” G ir balansēta, ja tā satur katru virkņu pāri vismaz p > 1 reizes. Teorēma (Gusfield, 1993) Vismaz viena no zvaigznēm balansētā zvaigžņu kopā dos 2 – 2/n MSA aproksimāciju. Biologi tomēr šādu 2-aproksimāciju uzskata par nepietiekami labu...

  41. Heiristiskas metodes Heiristiski algoritmi - principā neko negarantē, bet balstās uz "saprātīgiem" apsvērumiem un, noteiktos apstākļos, var dot • Dažas heiristiskas metodes: • Star Alignment • Pakāpeniskie (Progressive) MSA • Tree Alignment • Praksē lietotās programmas parasti ir "ļoti heiristiskas" un • neatbilst kādam konkrētam "grāmatas" variantam...

  42. Star Alignment - Piemērs MPE | | MKE MSKE - || MKE s1: MPE s2: MKE s3: MSKE s4: SKE s3 s1 s2 SKE || MKE -MPE -MKE MSKE -SKE -MPE -MKE MSKE MPE MKE s4 [Adapted from C.Struble]

  43. Star Alignment - Sarežģītība • Pieņem, ka visas virknes ir garumā n • O(n2) lai atrastu globālo salīdzinajumu • O(k) globālie salīdzinājumi • Lietojot “saprātīgu” datu struktūru salīdzinājumu apvienošanai, ne sliktāk kā O(kl), kur l ir salīdzinājumu garumu augšējā robeža, kopējais laiks - O(kn2+k2l) [Adapted from C.Struble]

  44. Progressive Alignment General idea: • Align two of the sequences xi, xj • Fix that alignment • Align a third sequence xk to the alignment xi,xj • Repeat until all sequences are aligned Running Time: O( N L2 ) Nav tas pats, kas star alignment - cenšamies atrast labako sakritību ar jau atrasto alignmentu, nevis konkrētu virkni [Adapted from S.Batzoglou]

  45. Progressive Alignment x y • Kādā secībā virknes izvēlēties? • Ja ir zināms evolucijas koks, vispirms salīdzinām tuvākās virknes (atbilstoši kokam) Piemērs: Salīdzinājumu secība: 1. (x,y) 2. (z,w) 3. (xy, zw) z w [Adapted from S.Batzoglou]

  46. Progressive Alignment - Vairums MA balstās uz šo principu - Sakotnējā hipotēze par filoģenētisko koku balstās uz pāru salīdzinājumiem - Būvē pakāpeniski, sākot ar vistuvakajām virknēm - Seko filoģenētiskā koka zariem - Pietiekami ātrs - “Sensitive” - Heiristisks, nav precīzas matemātiskas definīcijas - “Samērā labs” priekš biologiem - bieži var iegūt MA, ko ir grūti manuāli uzlabot

  47. Tree Alignments • Modelēkvirknes ar koku kuram ir k lapas • Izrēķina katras šķautnes svaru (attālumu starp virknēm) • Koka svars ir visu šķautņu svaru summa • Atrod koku ar minimālo svaru Resp., kaut kas ļoti tuvs labākā filoģenētiskā koka atrašanai NP-pilna problēma... [Adapted from C.Struble]

  48. Tree alignment - Piemērs • Match +1, gap -1, mismatch 0 • If x=CT and y=CG, score of 6 CTG CAT y x CG GT [Adapted from C.Struble]

  49. Lifted Alignment • “Lifted alignment” - katrai iekšējai virsotnei atbilst tāda pati virkne, kā vienam no viņas bērniem • “Lifted alignment” dod koku, kura svars nav lielāks par dubultotu minimumu • “Lifted alignment” var atrast polinomiālā laikā [Adapted from D.Gusfield]

  50. PakāpeniskieMSA - Problēmas 1. Lokalā minimuma problēma - Rodas no“greedy nature of alignment”(sākotnējas kļūdas vēlāk vairs nevar tikt labotas) - Labāks koks dod labāku MA(UPGMA neighbour-joining tree method) 2. Parametru izvēles problēma - Rodas tādēļ, ka tiek lietota viena parametru kopa (un cerēts, ka tas derēs visos gadijumos)

More Related