1 / 76

Zarovnávání biologických sekvencí

Zarovnávání biologických sekvencí. 9. přednáška. Zarovnávání biologických sekvencí. Pravděpodobnost a pravděpodobnostní modely Zarovnávání Významnost skóre v hodnocení modelu Nastavení parametrů modelů. Pravděpodobnost a pravděpodobnostní modely. Model

gay
Download Presentation

Zarovnávání biologických sekvencí

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Úvod do medicínské informatiky pro Bc. studium Zarovnávání biologických sekvencí 9. přednáška

  2. Úvod do medicínské informatiky pro Bc. studium Zarovnávání biologických sekvencí • Pravděpodobnost a pravděpodobnostní modely • Zarovnávání • Významnost skóre v hodnocení modelu • Nastavení parametrů modelů

  3. Úvod do medicínské informatiky pro Bc. studium Pravděpodobnost a pravděpodobnostní modely • Model • je systém simulující objekt za určitých podmínek. • Pravděpodobnostní model • je systém poskytující různé výstupy s různými pravděpodobnostmi, a • může simulovat třídu objektů.

  4. Úvod do medicínské informatiky pro Bc. studium Maximální pravděpodobnost • Parametry modelu jsou odhadovány z velké množiny "správných" příkladů (trénovací množina). • Příklad: • Pravděpodobnost qa pro aminokyselinu a může být odhadnuta jako pozorovaná četnost výskytů reziduí v databázi známých proteinových sekvencí, např. SWISS-PROT.

  5. Úvod do medicínské informatiky pro Bc. studium Maximální pravděpodobnost • Tento způsob odhadu se nazývá metoda maximální pravděpodobnosti. • Obecně: • Je dán model s parametry θ a množina dat D, potom • odhad maximální pravděpodobnosti pro θ je taková hodnota, která maximalizuje P(D|θ).

  6. Úvod do medicínské informatiky pro Bc. studium Pravděpodobnosti • Podmíněná pravděpodobnost • Vzájemná pravděpodobnost • Marginální pravděpodobnost • Příklad: • Máme dvě kostky D1 a D2. Pravděpodobnost, že padne i při hodu kostkou D1 je podmíněná pravděpodobnostP(i|D1).

  7. Úvod do medicínské informatiky pro Bc. studium Pravděpodobnosti • Vybereme-li náhodně kostkuDjs p.P(Dj), j=1, 2, p. výběru kostkyDja hozeníije součinem dvou p. a nazývá se vzájemnou pravděpodobnostíP(i,Dj)=P(Dj).P(i|Dj). • Rovnice P(X,Y)= P(X|Y).P(Y) platí obecně pro jakékoliv jevy X a Y. • Jestliže jsou podmíněná i vzájemná p. známy, můžeme vypočítat marginální pravděpodobnostP(X)=SYP(X,Y)=SYP(X|Y).P(Y)

  8. Úvod do medicínské informatiky pro Bc. studium Párování • Základní úlohou sekvenční analýzy je otázka, zda jsou dvě sekvence v relaci (zda spolu souvisí, zda mají společného předka). • Úloha má dvě části: • párování (zarovnání sekvencí nebo jejich částí), • posouzení, zda se párování zdařilo • díky relaci sekvencí nebo • náhodou, • za pomoci ohodnocení.

  9. Úvod do medicínské informatiky pro Bc. studium Příklady relací sekvencí • Hemoglobin subunit alpha versus • Hemoglobin subunit beta

  10. Úvod do medicínské informatiky pro Bc. studium

  11. Úvod do medicínské informatiky pro Bc. studium

  12. Úvod do medicínské informatiky pro Bc. studium

  13. Úvod do medicínské informatiky pro Bc. studium

  14. Úvod do medicínské informatiky pro Bc. studium Příklady relací sekvencí Lidský alfa globin: HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVD G+ +VK+HGKKV A+++++AH+D HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLD Jasná podobnost lidskému beta globinu. HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVD ++ ++++H+ KV + +A ++ LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQ Strukturálně přijatelné srovnání s leghemoglobinem. Písmeno – identická pozice, + - 'podobná pozice'

  15. Úvod do medicínské informatiky pro Bc. studium Model ohodnocení • Při porovnávání sekvencí hledáme důkaz divergence ze společného předka, která mohla nastat procesem • mutace, a • selekce. • Základní mutační procesy jsou • substituce (změna rezidua), a • inserce a delece (přidání a vypuštění rezidua). • Inserce a delece jsou vztaženy k mezerám.

  16. Úvod do medicínské informatiky pro Bc. studium Modely (ne)příbuznosti • Dvojice sekvencí x a y délky n a m. • xi je i-tý symbol x, yj je j-tý symbol y. • Symboly jsou z abecedy A. • A ={A, G, C, T} pro DNA, A ={20 aminokyselin} pro proteiny. • Dvojici sekvencí přiřadíme skóre párování, které představuje p., že sekvence jsou příbuzné (jako opak nepříbuznosti).

  17. Úvod do medicínské informatiky pro Bc. studium Model nepříbuznosti • Nepříbuzný (náhodný) model R předpokládá, že symbol a se objevuje nezávisle s četností qa. • P. dvou sekvencí je potom pouze součinem p. sekvencí:

  18. Úvod do medicínské informatiky pro Bc. studium Model příbuznosti • V modelu příbuznosti M se zarovnané páry reziduí objevují se vzájemnou p. pab. • pab může být chápána jako p. toho, že rezidua a a b byla nezávisle odvozena z neznámého rezidua c ve společném předkovi. • c může být totožné s a nebo b.

  19. Úvod do medicínské informatiky pro Bc. studium Pravděpodobnostní poměr • Pravděpodobnostní poměr je dán poměrem p. obou modelů:

  20. Úvod do medicínské informatiky pro Bc. studium Logaritmický pravděpodobnostní poměr • Obvykle se využívá aditivního skórovacího systému. • Tomu odpovídá logaritmický pravděpodobnostní poměr: • kde s(xi,yi) je individuální skóre

  21. Úvod do medicínské informatiky pro Bc. studium Substituční matice • Log p. poměr je sumou individuálních skóre s(a,b) pro každý zarovnaný pár reziduí. • Skóre s(a,b) bývají vyjádřena substituční maticí (maticí skóre). • Např. pro proteiny tvoří matici 20x20 s s(ai,aj) na pozicích i, j, kde ai, aj jsou i-tá a j-tá aminokyselina

  22. Úvod do medicínské informatiky pro Bc. studium Příklad substituční matice Matice BLOSUM50

  23. Úvod do medicínské informatiky pro Bc. studium Penalizace mezer • Kromě substitucí je nutné ohodnotit také inserce a delece. • Standardní cena mezery délky g je • Alternativou je afinní skóre • kde d je standarní cena a e<d je rozšiřující cena pro menší penalizaci dlouhých insercí a delecí.

  24. Úvod do medicínské informatiky pro Bc. studium Zarovnávací algoritmy • Zarovnávací algoritmy slouží k nalezení optimálního zarovnání dvojice sekvencí. • Jsou-li sekvence stejně dlouhé, existuje jediné možné (globální) zarovnání kompletních sekvencí. • Uvážíme-li také mezery, existuje možných globálních zarovnání. n=10: 1,9.105 n=100: 9.1058

  25. Úvod do medicínské informatiky pro Bc. studium Globální v. lokální zarovnávání • Při globálním zarovnávání hledáme optimální vzájemnou polohu dvou sekvencí od jednoho konce k druhému. • Častější situací je zarovnávání subsekvencí v tzv. lokálním zarovnávání.

  26. Úvod do medicínské informatiky pro Bc. studium Dynamické programování • Optimální zarovnání se v analýze biologických sekvencí řeší dynamickým programováním: • Needlemanův-Wunschův algoritmus, • Gotohův a., • Smithův-Watermanův a.. • a další.

  27. Úvod do medicínské informatiky pro Bc. studium Dynamické programování • Dynamické programování (DP) zaručuje nalezení optimálního zarovnání. • Existují rychlejší – heuristické – algoritmy, které ale vyžadují apriorní informaci a nemusí vždy nalézt globální optimum. • DP využívá v analýze biologických sekvencí logaritmický pravděpodobnostní poměr  půjde o nalezení maxima.

  28. Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. • Myšlenka: globální zarovnání využije předchozí lokální zarovnání kratších subsekvencí. • Vytváří se matice F (indexovaná i a j pro jednotlivé sekvence). • F(i,j) je skóre nejlepšího zarovnání mezi počátečním segmentem x1..i sekvence x do xi a počátečním segmentem y1..j sekvence y do yj.

  29. Úvod do medicínské informatiky pro Bc. studium Konstrukce N.-W. a. • Existují 3 možné cesty k nejlepšímu skóre F(i,j). I G A xi A I G A xi G A xi - - L G V yj G V yj - - S L G V yj • xi je zarovnáno k yj, pak F(i,j)=F(i-1,j-1)+s(xi,yj), • xi je zarovnáno k mezeře,pak F(i,j)=F(i-1,j)-d, • yj je zarovnáno k mezeře,pak F(i,j)=F(i,j-1)-d,.

  30. Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. • F(i,j) je konstruována rekurzivně. • Inicializace je F(i,j)=0. • Po té se matice plní shora zleva směrem dolů doprava:

  31. F(i-1,j-1) F(i,j-1) -d s(xi,yj) F(i-1,j) F(i,j) -d Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. • Matice je naplněna takto: • Během plnění je uchována informace o cestě (index buňky, která byla zdrojem hodnoty).

  32. Úvod do medicínské informatiky pro Bc. studium N.–W. a.- příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE

  33. Úvod do medicínské informatiky pro Bc. studium Penalizační skóre Hodnoty z matice BLOSUM50 pro sekvence z příkladu. Penalizace mezer d=-8.

  34. 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -33 -42 -49 -57 -65 -73 -16 -20 -28 -36 -44 -52 -60 -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 Úvod do medicínské informatiky pro Bc. studium N. –W. a.- příklad H E A G A W G H E E P -2 -9 -17 -25 A -10 -3 -4 -12 W H E A E HEAGAWGHEE PAWHEAE

  35. Úvod do medicínské informatiky pro Bc. studium N. –W. a.- příklad H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 Optimální zarovnání: HEAGAWGHE-E (celkové skóre = 1)--P-AW-HEAE P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

  36. Úvod do medicínské informatiky pro Bc. studium N.–W. a.– výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE

  37. Úvod do medicínské informatiky pro Bc. studium Zpětné trasování • Z pravého dolního rohu (n,m) matice F můžeme zakreslit optimální cestu. • Optimální cesta je výstupem dynamického programování a odpovídá optimálnímu globálnímu zarovnání (s nejvyšším možným celkovým skóre). • Cesta končí v levém horním rohu (0,0), kde se nachází hodnota F(0,0)=0.

  38. Úvod do medicínské informatiky pro Bc. studium Inicializace N.–W. a. • V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). • F(i,0) reprezentuje zarovnání prefixu x ke všem mezerám v y. • Definujeme F(i,0)=-id. • Podobně pro levý sloupec pro i=0 je F(0,j)=-jd.

  39. Úvod do medicínské informatiky pro Bc. studium Náročnost Needlemanova-Wunschova algoritmu • Výpočetní a paměťové nároky jsou v analýze biologických dat vždy kritické. • V N.-W. a. potřebujeme • (m+1).(n+1) paměťových míst, • pro každé číslo vypočítat 3 součty a 1 maximum. • Celková časová náročnost je • O(nm) – časová náročnost • a protože obvykle n  m, pak náročnost je O(n2)

  40. Úvod do medicínské informatiky pro Bc. studium Smithův-Watermanův a. • Obecně algoritmy (dynamického programování) pro lokální zarovnávání vycházejí z principu globálního zarovnávání. • Dva rozdíly: • U každého prvku matice F je přidána další možnost stanovit F(i,j)=0 v případě, že ostatní varianty jsou <0. • Zarovnávání může skončit kdekoliv uvnitř matice F, nikoliv nutně v pravém dolním rohu.

  41. Úvod do medicínské informatiky pro Bc. studium Smithův-Watermanův a. • ad Rozdíl 1: • Volba hodnoty 0 odpovídá "nastartování" nového zarovnávání.

  42. Úvod do medicínské informatiky pro Bc. studium S.–W. a.- příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE (Jde o stejné sekvence jako v příkladu pro globální zarovnání.)

  43. Úvod do medicínské informatiky pro Bc. studium S. –W. a.- příklad Optimální zarovnání: AWGHE (celkové skóre = 28)AW-HE

  44. Úvod do medicínské informatiky pro Bc. studium S.–W. a.– výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE • V příkladu je nalezeno lokální zarovnání jako podmnožina globálního zarovnání. • To však nemusí vždy nutně nastat.

  45. Úvod do medicínské informatiky pro Bc. studium Inicializace S.-W. a. • V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). • Použití 0 v algoritmu vynucuje změnu inicializace F. • Definujeme F(i,0)=0. • Podobně pro levý sloupec pro i=0 je F(0,j)=0.

  46. Úvod do medicínské informatiky pro Bc. studium Zpětné trasování • Při zpětném trasování nemusíme vycházet z prvku F(n,m), ale z prvku • Trasování opět končí ve chvíli, kdy dosáhneme prvku F(i,j)=0. To nemusí být nutně v bodě (0,0).

  47. Úvod do medicínské informatiky pro Bc. studium Opakované shody • V případě dlouhých sekvencí je pravděpodobné nalezení mnoha lokálních zarovnání s vysokým skóre. • Existují překrývající se a nepřekrývající se části (motivy). • Existují symetrické a asymetrické metody: • asymetrické – hledá se opakující se část z jedné sekvence v druhé (ale už ne naopak).

  48. Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části • Zavádí se práh skóre T pro zanedbání krátkých lokálních zarovnání. • y – sekvence obsahující část (motiv). • x – sekvence, v níž vyhledáváme opakované části. • Matice F je použita tak, že x je rozděleno na části, které • souhlasí s částmi v y v lokálních zarovnáních s mezerami, • nesouhlasí s ničím.

  49. Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části • F(i,j) je konstruována rekurzivně. • Inicializace je F(i,j)=0. • Po té se matice plní podle:

  50. Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části • Vztah pro F(i,0) zajišťuje nesouhlasící oblasti a konce zarovnání (v případě, že skóre převýší práh T). • Vztah pro F(i,j) zajišťuje začátky zarovnání a prodloužení.

More Related