590 likes | 891 Views
B ioinformā ti ka Virkņu klasifikācija - profili, paterni un motīvi Sequence classification - profiles, patterns and motifs Daudzu virkņu vienlaicīga salīdzināšana Multiple a lignment. LU, 2014, Juris V īksna. Šīs lekcijas tematika. Profili, paterni un motīvi:
E N D
Bioinformātika Virkņu klasifikācija - profili, paterni un motīvi Sequence classification - profiles, patterns and motifs Daudzu virkņu vienlaicīga salīdzināšana Multiple alignment LU, 2014,Juris Vīksna
Šīs lekcijas tematika • Profili, paterni un motīvi: • virkņu klasifikācijas problēma • profili, to atrašana un pielietošana • sliekšņu izvēle (ROC līknes) • paterni • HMM • Daudzu virkņu vienlaicīga salīdzināšana (multiple alignment) • problēmas nostādne • scoring funkcijas • DP algoritms • heiristiskās metodes (star alignment, progressive alignment, tree alignment) • alignmentu uzlabošana
MSA - Piemērs [Adapted from R.Shamir]
Virkņu klasifikācija Dotas vairākas homologas virknes, kopā ar alignment-u (par to, kā tādu atrast, pēc brīža :) Mēs gribam atrast šīs homologu grupas raksturojumu, kuru tad varētu salīdzināt ar citām, vēl neizpētītām virknēm
Transitive sequence comparison Position specific iterative BLAST (PSI-BLAST)
Profili, motīvi, HMM • Fuse multiple alignment into: • - Motif: a short signature pattern identified in the conserved region of the multiple alignment • - Profile: frequency of each amino acid at each position is estimated • HMM: Hidden Markov Model, a generalized profile in rigorous mathematical terms Can get more sensitive searches with these multiple alignment representations (Run the profile against the DB.) [Adapted from M.Gerstein]
Profili Profile : a position-specific scoring matrix composed of 21 columns and N rows (N=length of sequences in multiple alignment) [Adapted from M.Gerstein]
EGF Profile Generated for SEARCHWISE Cons A C D E F G H I K L M N P Q R S T V W Y Gap V -1 -2 -9 -5 -13 -18 -2 -5 -2 -7 -4 -3 -5 -1 -3 0 0 -1 -24 -10 100 D 0 -14 -1 -1 -16 -10 0 -12 0 -13 -8 1 -3 0 -2 0 0 -8 -26 -9 100 V 0 -13 -9 -7 -15 -10 -6 -5 -5 -7 -5 -6 -4 -4 -6 -1 0 -1 -27 -14 100 D 0 -20 18 11 -34 0 4 -26 7 -27 -20 15 0 7 4 6 2 -19 -38 -21 100 P 3 -18 1 3 -26 -9 -5 -14 -1 -14 -12 -1 12 1 -4 2 0 -9 -37 -22 100 C 5 115 -32 -30 -8 -20 -13 -11 -28 -15 -9 -18 -31 -24 -22 1 -5 0 -10 -5 100 A 2 -7 -2 -2 -21 -5 -4 -12 -2 -13 -9 0 -1 0 -3 2 1 -7 -30 -17 100 s 2 -12 3 2 -25 0 0 -18 0 -18 -13 4 3 1 -1 7 4 -12 -30 -16 25 n -1 -15 4 4 -19 -7 3 -16 2 -16 -10 7 -6 3 0 2 0 -11 -23 -10 25 p 0 -18 -7 -6 -17 -11 0 -17 -5 -15 -14 -5 28 -2 -5 0 -1 -13 -26 -9 25 c 5 115 -32 -30 -8 -20 -13 -11 -28 -15 -9 -18 -31 -24 -22 1 -5 0 -10 -5 25 L -5 -14 -17 -9 0 -25 -5 4 -5 8 8 -12 -14 -1 -5 -7 -5 2 -15 -5 100 N -4 -16 12 5 -20 0 24 -24 5 -25 -18 25 -10 6 2 4 1 -19 -26 -2 100 g 1 -16 7 1 -35 29 0 -31 -1 -31 -23 12 -10 0 -1 4 -3 -23 -32 -23 50 G 6 -17 0 -7 -49 59 -13 -41 -10 -41 -32 3 -14 -9 -9 5 -9 -29 -39 -38 100 T 3 -10 0 2 -21 -12 -3 -5 1 -11 -5 1 -4 1 -1 6 11 0 -33 -18 100 C 5 115 -32 -30 -8 -20 -13 -11 -28 -15 -9 -18 -31 -24 -22 1 -5 0 -10 -5 100 I -6 -13 -19 -11 0 -28 -5 8 -4 6 8 -12 -17 -4 -5 -9 -4 6 -12 -1 100 d -4 -19 8 6 -15 -13 5 -17 0 -16 -12 5 -9 2 -2 -1 -1 -13 -24 -5 31 i 0 -6 -8 -6 -4 -11 -5 3 -5 1 2 -5 -8 -4 -6 -2 0 4 -14 -6 31 g 1 -13 0 0 -20 -3 -3 -12 -3 -13 -8 0 -7 0 -5 2 0 -7 -29 -16 31 L -5 -11 -20 -14 0 -23 -9 9 -11 8 7 -14 -17 -9 -14 -8 -4 7 -17 -5 100 E 0 -20 14 10 -33 5 0 -25 2 -26 -19 11 -9 4 0 3 0 -19 -34 -22 100 S 3 -13 4 3 -28 3 0 -18 2 -20 -13 6 -6 3 1 6 3 -12 -32 -20 100 Y -14 -9 -25 -22 31 -34 10 -5 -17 0 -1 -14 -13 -13 -15 -14 -13 -7 17 44 100 T 0 -10 -6 -1 -11 -16 -2 -7 -1 -9 -5 -3 -9 0 -1 1 3 -4 -16 -8 100 C 5 115 -32 -30 -8 -20 -13 -11 -28 -15 -9 -18 -31 -24 -22 1 -5 0 -10 -5 100 R 0 -13 0 2 -19 -11 1 -12 4 -13 -8 3 -8 4 5 1 1 -8 -23 -13 100 C 5 115 -32 -30 -8 -20 -13 -11 -28 -15 -9 -18 -31 -24 -22 1 -5 0 -10 -5 100 P 0 -14 -8 -4 -15 -17 0 -7 -1 -7 -5 -4 6 0 -2 0 1 -3 -26 -10 100 P 1 -18 -3 0 -24 -13 -3 -12 1 -13 -10 -2 15 2 0 2 1 -8 -33 -19 100 G 4 -19 3 -4 -48 53 -11 -40 -7 -40 -31 5 -13 -7 -7 4 -7 -29 -39 -36 100 y -22 -6 -35 -31 55 -43 11 -1 -25 6 4 -21 -34 -20 -21 -22 -20 -7 43 63 50 S 1 -9 -3 -1 -14 -7 0 -10 -2 -12 -7 0 -7 0 -4 4 4 -5 -24 -9 100 G 5 -20 1 -8 -52 66 -14 -45 -11 -44 -35 4 -16 -10 -10 4 -11 -33 -40 -40 100 E 2 -20 10 12 -31 -7 0 -19 6 -20 -15 5 4 7 2 4 2 -13 -38 -22 100 R -5 -17 0 1 -16 -13 8 -16 9 -16 -11 5 -11 7 15 -1 -1 -13 -18 -6 100 C 5 115 -32 -30 -8 -20 -13 -11 -28 -15 -9 -18 -31 -24 -22 1 -5 0 -10 -5 100 E 0 -26 20 25 -34 -5 6 -25 10 -25 -17 9 -4 16 5 3 0 -18 -38 -23 100 T -4 -11 -13 -8 -1 -21 2 0 -4 -1 0 -6 -14 -3 -5 -4 0 0 -15 0 100 D 0 -18 5 4 -24 -11 -1 -11 2 -14 -9 1 -6 2 0 0 0 -6 -34 -18 100 I 0 -10 -2 -1 -17 -14 -3 -4 -1 -9 -4 0 -11 0 -4 0 2 -1 -29 -14 100 D -4 -15 -1 -2 -13 -16 -3 -8 -5 -6 -4 -1 -7 -2 -7 -3 -2 -6 -27 -12 100 Cons. Cys [Adapted from M.Gerstein]
Profili Matrica M ar izmēriem 20xn (vai 21xn) kur m(i,j) ir varbūtība, ka i-jā pozīcijā ir j-tā aminoskābe. Ja dota virkne a1...an, tad varbūtība, ka tā atbilst dotajam profilam būs p = m(1,a1)·...·m(n,an). Vai arī, mēs matricā varam salikt varbūtību logaritmus, tad varbūtību varēs aprēķināt šādi: p = exp(m(1,a1)+...+m(n,an)).
Profilu atrašana [Adapted from M.Singh
Profilu atrašana [Adapted from M.Singh
Profilu pielietošana [Adapted from M.Singh
Motīvi - PROSITEpaterni PROSITE Database of protein families and domains http://www.expasy.org/prosite/ 31.10.2006 - 1331 paterni un 675 profili +-------------------+ +-------------------------+ | | | |x(4)-C-x(0,48)-C-x(3,12)-C-x(1,70)-C-x(1,6)-C-x(2)-G-a-x(0,21)-G-x(2)-C-x | | ************************************ +-------------------+ 'C': conserved cysteine involved in a disulfide bond.'G': often conserved glycine'a': often conserved aromatic amino acid'*': position of both patterns.'x': any residue -Consensus pattern: C-x-C-x(5)-G-x(2)-C [Adapted from M.Gerstein]
Motīvi - PROSITEpaterni Atrast PROSITE patternu sekojošām virknēm: GRABCDA-B GRADC-A-B GAABCDA-B GRABCDA-C GAABCCA-B GRA-CDA-C GRABBDA-B G_ABCDA-B GRABBDA-C GRABCCA-B Paterna piemērs: [LIY]-x-A-C-V-[DNQ]-x(3)-[RS]-x(2,4)-[PS]
HMM proteīnu virknēm [Adapted from R.B.Altman]
HMM algoritmiskās problēmas Easy (DP) :) - Viterbi algorithm Hard :( - Baum-Welsch algorithm [Adapted from R.B.Altman]
MSA - Motivācija Viena no spēcīgakajām metodēm molekulārajā bioloģijā • Palīdz atklāt filoģenētiskās sakarības • Palīdz saprast evolūcijas mehānismu, kas iedarbojas uz gēnu • Palīdz formulēt un pārbaudīt hipotezes par proteīnu 3D struktūru (balstītu uz “saglabātajiem” apgabaliem) • Palīdz formulēt un pārbaudīt hipotezes par proteīnu funkciju • Palīdz saprast kā ir mainījusies proteīna funkcija • Palīdz meklēt homologas virknes citos organismos • Ļauj atrast paternus proteīnu klasu raksturošanai
MSA - Motivācija Homologu identifikācija salīdzinot virkņu pārus: Virkņu līdzība > 30% OK Līdzība intervālā 15-30% ??? • Vāja līdzība starp divām virknēm kļūst ļoti nozīmīga, ja saglabājas tādi pati arī daudz lielākam virkņu skaitam • Labi raksturo proteīnu domēnus • Labi raksturo gēnu regulācijas apgabalus
MSA - Īsa vēsture • Praktiski lietojamas metodes tikai kopš 1987 • Pirms 1987 tika veikti manuāli • Pamatproblēma: nevar lietot dinamiskās programmēšanas metodes • Pirmā pielietojamā metode: D. Sankoff (1987), balstīta uz filoģenētiku
MSA - Piemērs Multiple sequence alignment of 7 neuroglobins using clustalx [Adapted from C.Struble]
MSA - Piemērs [Adapted from R.Shamir]
MSA - Precīzs formulējums? Kāda precīzi ir “Multiple Alignment” problēma? • Nav vispārpieņemta viedokļa • Aptuveni - “savietot” virknes tā, lai “kopīgā daļa” būtu iespējami garāka • Mēginot precizēt, ko tas nozīmē, iespējami vairāki, nedaudz atšķirīgi, formulējumi • Praktiski, liekas, nav pārāk lielas nozīmes, kuru no tiem izvēlas... • Nedaudz cits jautājums - kādu novērtējumu dot jau atrastam MSA?
MSA - Redukcija uz virkņu pāru savietošanu? GGGTTTAAAAA GGGTTTAAAAA------ AAAAAGGGTTT ------AAAAAGGGTTT TTTAAAAAGGG ---TTTAAAAAGGG--- AAAAA -----GGGTTTAAAAA AAAAAGGGTTT----- GGGTTT --------GGGTTT TTTAAAAAGGG--- GGG Multiple Alignment Repeated Pairwise Alignments
Scoring a multiple alignment A A A A C A C A C A C C A C A Sum of pairs Star Tree [Adapted from D.Fernandez-Baca]
Sum-of-Pairs (SOP) A AAA AAA AAA AAC ACC A C A A A A A A A C 10α + (6α - 4β) + (4α - 6β) A A A C = 20α - 10β [Adapted from D.Fernandez-Baca]
Inducētais pāruAlignment-s S1 S - T I S C T G - S - N I S2 L - T I – C N G S S - N I S3 L R T I S C S G F S Q N I Induced pairwise alignment of S1,S2: S1 S T I S C T G - S N I S2 L T I – C N G S S N I [Adapted from D.Fernandez-Baca]
Sum-of-Pairs novērtējuma funkcija Score of multiple alignmentS= ∑i <j score(Si,Sj) where score(Si,Sj) = score of inducedpairwise alignment Novērtējumu summas vietā varēja izvēlēties arī, piem., maksimumu... vai arī sarežģīt formulu vēl vairāk, dažādojot gap soda punktu rēķināšanu... [Adapted from D.Fernandez-Baca]
MSA un dinamiskās programmēšanas metodes • DP algoritms divām virknēm var tikt vispārināts jebkuram virkņu skaitam • Piemēram, trīs virknēmX,Y,W definējam: • C[i,j,k] = optimālā alignment score priekšvirknēmX[1..i], Y[1..j], W[1..k] • Tāpat kā 2 virknēm, sadala alignment-us klasēs, atkarībā no virkņu pēdējiem simboliem [Adapted from D.Fernandez-Baca]
MSAun dinamiskās programmēšanas metodes 7 veidi, kā var beigties 3 virknes: Xi Yj Wk X1 . . . Xi-1 Xi Y1 . . . Yj-1 Yj W1 . . . Wk-1 Wk - Yj Wk Xi - Wk Xi - - Xi Yj - - Yj - - - Wk [Adapted from D.Fernandez-Baca]
MSAun dinamiskās programmēšanas metodes For 3 seqs. of length n, time is proportional to n3 7 veidi kā iegūt C[i,j,k]: C[i,j,k] C[i-1,j,k-1] C[i-1,j-1,k-1] C[i-1,j,k-1] Enumerate all possibilities and choose the best one [Adapted from D.Fernandez-Baca]
MSAun dinamiskās programmēšanas metodes A S V [Adapted from G.Church]
MSAun dinamiskās programmēšanas metodes V S N — S — S N A — — — — A S Katrs alignment-s ir ceļš 3D DP matricā S A A N S V S N S Start [Adapted from D.Fernandez-Baca]
MSA un DP - Sarežģītība • O(nk) “lauciņi”, kas jāaizpilda • Katrs lauciņšizmanto O(2k) citus • Katra“SOP-score” rēķināšana prasa O(k2) • Kopējais laiks O(k2 2k nk), vai eksponenciāls pec virkņu skaita! • MSA ar“SOP-score” (un jebkuru citu, no praktiskā viedokļa interesantu score)ir NP-pilna problēma [Adapted from C.Struble]
MSA un DP - Sarežģītība • For k sequences of length n, dynamic programming algorithm does (2k-1)nk operations • Example: 6 sequences of length 100 require6.4X1013 calculations • Space for table is nk • Implementations (e.g., WashU MSA 2.1) use tricks and only search subset of dynamic programming table • Even this is expensive. E.g., Baylor CM Search launcher limits MSA to 8 sequences of 800 characters and 10 minutes processing time [Adapted from D.Fernandez-Baca]
Problēmas ar SOP scoring • Pair-wise comparisons can over-score evolutionarily distant pairs. • Reason: For 3 or more sequences, SP scoring does not correspond to any evolutionary tree. But not: [Adapted from D.Fernandez-Baca]
Problēmas ar SOP scoring Risinājumi: • Use weights to incorporate evolution in sum of pairs scoring: • Some pairwise alignments are more important than others • E.g., more important to have a good alignment between mouse and human sequences than mouse and bird • Assign different weights to different pair-wise alignments. • Weight decreases with evolutionary distance. • Use star tree approach • one sequence is assigned as the ancestor and all others are contrasted it.
Consensus virknes A A C C A Star S - virkne; -virkņu kopa Consensus kļūda: E(S,) = kxd(s,x) Atrast tādu S, kas minimizē E(S,). S - Šteinera virkne
Weighted SOP Human • Heiristisks veids, kā iekļaut evolūcijas koku: Mouse Duck Chicken • Weighted SOP: • S(m) = k,l wkl s(mk, ml) • wkl: svars samazinās līdz ar attālumu [Adapted from S.Batzoglou]
MSA - "lielākās ticamības" koki Ideālā gadījumā - atrast MSA, kas maksimizē varbūtību, ka virknes ir radušās nokopīga senča. x y z ? w v [Adapted from S.Batzoglou]
Aproksimācijas algoritmi Aproksimācijas algoritmi - dotai optimizācijas problēmai atrod ne gluži labāko risinājumu, bet ar garantiju ne vairāk kā x reizes sliktāku G - k “zvaigžņu kopa” G ir balansēta, ja tā satur katru virkņu pāri vismaz p > 1 reizes. Teorēma (Gusfield, 1993) Vismaz viena no zvaigznēm balansētā zvaigžņu kopā dos 2 – 2/n MSA aproksimāciju. Biologi tomēr šādu 2-aproksimāciju uzskata par nepietiekami labu...
Heiristiskas metodes Heiristiski algoritmi - principā neko negarantē, bet balstās uz "saprātīgiem" apsvērumiem un, noteiktos apstākļos, var dot • Dažas heiristiskas metodes: • Star Alignment • Pakāpeniskie (Progressive) MSA • Tree Alignment • Praksē lietotās programmas parasti ir "ļoti heiristiskas" un • neatbilst kādam konkrētam "grāmatas" variantam...
Star Alignment - Piemērs MPE | | MKE MSKE - || MKE s1: MPE s2: MKE s3: MSKE s4: SKE s3 s1 s2 SKE || MKE -MPE -MKE MSKE -SKE -MPE -MKE MSKE MPE MKE s4 [Adapted from C.Struble]
Star Alignment - Sarežģītība • Pieņem, ka visas virknes ir garumā n • O(n2) lai atrastu globālo salīdzinajumu • O(k) globālie salīdzinājumi • Lietojot “saprātīgu” datu struktūru salīdzinājumu apvienošanai, ne sliktāk kā O(kl), kur l ir salīdzinājumu garumu augšējā robeža, kopējais laiks - O(kn2+k2l) [Adapted from C.Struble]
Progressive Alignment General idea: • Align two of the sequences xi, xj • Fix that alignment • Align a third sequence xk to the alignment xi,xj • Repeat until all sequences are aligned Running Time: O( N L2 ) Nav tas pats, kas star alignment - cenšamies atrast labako sakritību ar jau atrasto alignmentu, nevis konkrētu virkni [Adapted from S.Batzoglou]
Progressive Alignment x y • Kādā secībā virknes izvēlēties? • Ja ir zināms evolucijas koks, vispirms salīdzinām tuvākās virknes (atbilstoši kokam) Piemērs: Salīdzinājumu secība: 1. (x,y) 2. (z,w) 3. (xy, zw) z w [Adapted from S.Batzoglou]
Progressive Alignment - Vairums MA balstās uz šo principu - Sakotnējā hipotēze par filoģenētisko koku balstās uz pāru salīdzinājumiem - Būvē pakāpeniski, sākot ar vistuvakajām virknēm - Seko filoģenētiskā koka zariem - Pietiekami ātrs - “Sensitive” - Heiristisks, nav precīzas matemātiskas definīcijas - “Samērā labs” priekš biologiem - bieži var iegūt MA, ko ir grūti manuāli uzlabot
Tree Alignments • Modelēkvirknes ar koku kuram ir k lapas • Izrēķina katras šķautnes svaru (attālumu starp virknēm) • Koka svars ir visu šķautņu svaru summa • Atrod koku ar minimālo svaru Resp., kaut kas ļoti tuvs labākā filoģenētiskā koka atrašanai NP-pilna problēma... [Adapted from C.Struble]
Tree alignment - Piemērs • Match +1, gap -1, mismatch 0 • If x=CT and y=CG, score of 6 CTG CAT y x CG GT [Adapted from C.Struble]
Lifted Alignment • “Lifted alignment” - katrai iekšējai virsotnei atbilst tāda pati virkne, kā vienam no viņas bērniem • “Lifted alignment” dod koku, kura svars nav lielāks par dubultotu minimumu • “Lifted alignment” var atrast polinomiālā laikā [Adapted from D.Gusfield]
PakāpeniskieMSA - Problēmas 1. Lokalā minimuma problēma - Rodas no“greedy nature of alignment”(sākotnējas kļūdas vēlāk vairs nevar tikt labotas) - Labāks koks dod labāku MA(UPGMA neighbour-joining tree method) 2. Parametru izvēles problēma - Rodas tādēļ, ka tiek lietota viena parametru kopa (un cerēts, ka tas derēs visos gadijumos)