760 likes | 898 Views
Zarovnávání biologických sekvencí. 9. přednáška. Zarovnávání biologických sekvencí. Pravděpodobnost a pravděpodobnostní modely Zarovnávání Významnost skóre v hodnocení modelu Nastavení parametrů modelů. Pravděpodobnost a pravděpodobnostní modely. Model
E N D
Úvod do medicínské informatiky pro Bc. studium Zarovnávání biologických sekvencí 9. přednáška
Úvod do medicínské informatiky pro Bc. studium Zarovnávání biologických sekvencí • Pravděpodobnost a pravděpodobnostní modely • Zarovnávání • Významnost skóre v hodnocení modelu • Nastavení parametrů modelů
Úvod do medicínské informatiky pro Bc. studium Pravděpodobnost a pravděpodobnostní modely • Model • je systém simulující objekt za určitých podmínek. • Pravděpodobnostní model • je systém poskytující různé výstupy s různými pravděpodobnostmi, a • může simulovat třídu objektů.
Úvod do medicínské informatiky pro Bc. studium Maximální pravděpodobnost • Parametry modelu jsou odhadovány z velké množiny "správných" příkladů (trénovací množina). • Příklad: • Pravděpodobnost qa pro aminokyselinu a může být odhadnuta jako pozorovaná četnost výskytů reziduí v databázi známých proteinových sekvencí, např. SWISS-PROT.
Úvod do medicínské informatiky pro Bc. studium Maximální pravděpodobnost • Tento způsob odhadu se nazývá metoda maximální pravděpodobnosti. • Obecně: • Je dán model s parametry θ a množina dat D, potom • odhad maximální pravděpodobnosti pro θ je taková hodnota, která maximalizuje P(D|θ).
Úvod do medicínské informatiky pro Bc. studium Pravděpodobnosti • Podmíněná pravděpodobnost • Vzájemná pravděpodobnost • Marginální pravděpodobnost • Příklad: • Máme dvě kostky D1 a D2. Pravděpodobnost, že padne i při hodu kostkou D1 je podmíněná pravděpodobnostP(i|D1).
Úvod do medicínské informatiky pro Bc. studium Pravděpodobnosti • Vybereme-li náhodně kostkuDjs p.P(Dj), j=1, 2, p. výběru kostkyDja hozeníije součinem dvou p. a nazývá se vzájemnou pravděpodobnostíP(i,Dj)=P(Dj).P(i|Dj). • Rovnice P(X,Y)= P(X|Y).P(Y) platí obecně pro jakékoliv jevy X a Y. • Jestliže jsou podmíněná i vzájemná p. známy, můžeme vypočítat marginální pravděpodobnostP(X)=SYP(X,Y)=SYP(X|Y).P(Y)
Úvod do medicínské informatiky pro Bc. studium Párování • Základní úlohou sekvenční analýzy je otázka, zda jsou dvě sekvence v relaci (zda spolu souvisí, zda mají společného předka). • Úloha má dvě části: • párování (zarovnání sekvencí nebo jejich částí), • posouzení, zda se párování zdařilo • díky relaci sekvencí nebo • náhodou, • za pomoci ohodnocení.
Úvod do medicínské informatiky pro Bc. studium Příklady relací sekvencí • Hemoglobin subunit alpha versus • Hemoglobin subunit beta
Úvod do medicínské informatiky pro Bc. studium Příklady relací sekvencí Lidský alfa globin: HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVD G+ +VK+HGKKV A+++++AH+D HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLD Jasná podobnost lidskému beta globinu. HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVD ++ ++++H+ KV + +A ++ LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQ Strukturálně přijatelné srovnání s leghemoglobinem. Písmeno – identická pozice, + - 'podobná pozice'
Úvod do medicínské informatiky pro Bc. studium Model ohodnocení • Při porovnávání sekvencí hledáme důkaz divergence ze společného předka, která mohla nastat procesem • mutace, a • selekce. • Základní mutační procesy jsou • substituce (změna rezidua), a • inserce a delece (přidání a vypuštění rezidua). • Inserce a delece jsou vztaženy k mezerám.
Úvod do medicínské informatiky pro Bc. studium Modely (ne)příbuznosti • Dvojice sekvencí x a y délky n a m. • xi je i-tý symbol x, yj je j-tý symbol y. • Symboly jsou z abecedy A. • A ={A, G, C, T} pro DNA, A ={20 aminokyselin} pro proteiny. • Dvojici sekvencí přiřadíme skóre párování, které představuje p., že sekvence jsou příbuzné (jako opak nepříbuznosti).
Úvod do medicínské informatiky pro Bc. studium Model nepříbuznosti • Nepříbuzný (náhodný) model R předpokládá, že symbol a se objevuje nezávisle s četností qa. • P. dvou sekvencí je potom pouze součinem p. sekvencí:
Úvod do medicínské informatiky pro Bc. studium Model příbuznosti • V modelu příbuznosti M se zarovnané páry reziduí objevují se vzájemnou p. pab. • pab může být chápána jako p. toho, že rezidua a a b byla nezávisle odvozena z neznámého rezidua c ve společném předkovi. • c může být totožné s a nebo b.
Úvod do medicínské informatiky pro Bc. studium Pravděpodobnostní poměr • Pravděpodobnostní poměr je dán poměrem p. obou modelů:
Úvod do medicínské informatiky pro Bc. studium Logaritmický pravděpodobnostní poměr • Obvykle se využívá aditivního skórovacího systému. • Tomu odpovídá logaritmický pravděpodobnostní poměr: • kde s(xi,yi) je individuální skóre
Úvod do medicínské informatiky pro Bc. studium Substituční matice • Log p. poměr je sumou individuálních skóre s(a,b) pro každý zarovnaný pár reziduí. • Skóre s(a,b) bývají vyjádřena substituční maticí (maticí skóre). • Např. pro proteiny tvoří matici 20x20 s s(ai,aj) na pozicích i, j, kde ai, aj jsou i-tá a j-tá aminokyselina
Úvod do medicínské informatiky pro Bc. studium Příklad substituční matice Matice BLOSUM50
Úvod do medicínské informatiky pro Bc. studium Penalizace mezer • Kromě substitucí je nutné ohodnotit také inserce a delece. • Standardní cena mezery délky g je • Alternativou je afinní skóre • kde d je standarní cena a e<d je rozšiřující cena pro menší penalizaci dlouhých insercí a delecí.
Úvod do medicínské informatiky pro Bc. studium Zarovnávací algoritmy • Zarovnávací algoritmy slouží k nalezení optimálního zarovnání dvojice sekvencí. • Jsou-li sekvence stejně dlouhé, existuje jediné možné (globální) zarovnání kompletních sekvencí. • Uvážíme-li také mezery, existuje možných globálních zarovnání. n=10: 1,9.105 n=100: 9.1058
Úvod do medicínské informatiky pro Bc. studium Globální v. lokální zarovnávání • Při globálním zarovnávání hledáme optimální vzájemnou polohu dvou sekvencí od jednoho konce k druhému. • Častější situací je zarovnávání subsekvencí v tzv. lokálním zarovnávání.
Úvod do medicínské informatiky pro Bc. studium Dynamické programování • Optimální zarovnání se v analýze biologických sekvencí řeší dynamickým programováním: • Needlemanův-Wunschův algoritmus, • Gotohův a., • Smithův-Watermanův a.. • a další.
Úvod do medicínské informatiky pro Bc. studium Dynamické programování • Dynamické programování (DP) zaručuje nalezení optimálního zarovnání. • Existují rychlejší – heuristické – algoritmy, které ale vyžadují apriorní informaci a nemusí vždy nalézt globální optimum. • DP využívá v analýze biologických sekvencí logaritmický pravděpodobnostní poměr půjde o nalezení maxima.
Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. • Myšlenka: globální zarovnání využije předchozí lokální zarovnání kratších subsekvencí. • Vytváří se matice F (indexovaná i a j pro jednotlivé sekvence). • F(i,j) je skóre nejlepšího zarovnání mezi počátečním segmentem x1..i sekvence x do xi a počátečním segmentem y1..j sekvence y do yj.
Úvod do medicínské informatiky pro Bc. studium Konstrukce N.-W. a. • Existují 3 možné cesty k nejlepšímu skóre F(i,j). I G A xi A I G A xi G A xi - - L G V yj G V yj - - S L G V yj • xi je zarovnáno k yj, pak F(i,j)=F(i-1,j-1)+s(xi,yj), • xi je zarovnáno k mezeře,pak F(i,j)=F(i-1,j)-d, • yj je zarovnáno k mezeře,pak F(i,j)=F(i,j-1)-d,.
Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. • F(i,j) je konstruována rekurzivně. • Inicializace je F(i,j)=0. • Po té se matice plní shora zleva směrem dolů doprava:
F(i-1,j-1) F(i,j-1) -d s(xi,yj) F(i-1,j) F(i,j) -d Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. • Matice je naplněna takto: • Během plnění je uchována informace o cestě (index buňky, která byla zdrojem hodnoty).
Úvod do medicínské informatiky pro Bc. studium N.–W. a.- příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE
Úvod do medicínské informatiky pro Bc. studium Penalizační skóre Hodnoty z matice BLOSUM50 pro sekvence z příkladu. Penalizace mezer d=-8.
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -33 -42 -49 -57 -65 -73 -16 -20 -28 -36 -44 -52 -60 -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 Úvod do medicínské informatiky pro Bc. studium N. –W. a.- příklad H E A G A W G H E E P -2 -9 -17 -25 A -10 -3 -4 -12 W H E A E HEAGAWGHEE PAWHEAE
Úvod do medicínské informatiky pro Bc. studium N. –W. a.- příklad H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 Optimální zarovnání: HEAGAWGHE-E (celkové skóre = 1)--P-AW-HEAE P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1
Úvod do medicínské informatiky pro Bc. studium N.–W. a.– výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE
Úvod do medicínské informatiky pro Bc. studium Zpětné trasování • Z pravého dolního rohu (n,m) matice F můžeme zakreslit optimální cestu. • Optimální cesta je výstupem dynamického programování a odpovídá optimálnímu globálnímu zarovnání (s nejvyšším možným celkovým skóre). • Cesta končí v levém horním rohu (0,0), kde se nachází hodnota F(0,0)=0.
Úvod do medicínské informatiky pro Bc. studium Inicializace N.–W. a. • V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). • F(i,0) reprezentuje zarovnání prefixu x ke všem mezerám v y. • Definujeme F(i,0)=-id. • Podobně pro levý sloupec pro i=0 je F(0,j)=-jd.
Úvod do medicínské informatiky pro Bc. studium Náročnost Needlemanova-Wunschova algoritmu • Výpočetní a paměťové nároky jsou v analýze biologických dat vždy kritické. • V N.-W. a. potřebujeme • (m+1).(n+1) paměťových míst, • pro každé číslo vypočítat 3 součty a 1 maximum. • Celková časová náročnost je • O(nm) – časová náročnost • a protože obvykle n m, pak náročnost je O(n2)
Úvod do medicínské informatiky pro Bc. studium Smithův-Watermanův a. • Obecně algoritmy (dynamického programování) pro lokální zarovnávání vycházejí z principu globálního zarovnávání. • Dva rozdíly: • U každého prvku matice F je přidána další možnost stanovit F(i,j)=0 v případě, že ostatní varianty jsou <0. • Zarovnávání může skončit kdekoliv uvnitř matice F, nikoliv nutně v pravém dolním rohu.
Úvod do medicínské informatiky pro Bc. studium Smithův-Watermanův a. • ad Rozdíl 1: • Volba hodnoty 0 odpovídá "nastartování" nového zarovnávání.
Úvod do medicínské informatiky pro Bc. studium S.–W. a.- příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE (Jde o stejné sekvence jako v příkladu pro globální zarovnání.)
Úvod do medicínské informatiky pro Bc. studium S. –W. a.- příklad Optimální zarovnání: AWGHE (celkové skóre = 28)AW-HE
Úvod do medicínské informatiky pro Bc. studium S.–W. a.– výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE • V příkladu je nalezeno lokální zarovnání jako podmnožina globálního zarovnání. • To však nemusí vždy nutně nastat.
Úvod do medicínské informatiky pro Bc. studium Inicializace S.-W. a. • V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). • Použití 0 v algoritmu vynucuje změnu inicializace F. • Definujeme F(i,0)=0. • Podobně pro levý sloupec pro i=0 je F(0,j)=0.
Úvod do medicínské informatiky pro Bc. studium Zpětné trasování • Při zpětném trasování nemusíme vycházet z prvku F(n,m), ale z prvku • Trasování opět končí ve chvíli, kdy dosáhneme prvku F(i,j)=0. To nemusí být nutně v bodě (0,0).
Úvod do medicínské informatiky pro Bc. studium Opakované shody • V případě dlouhých sekvencí je pravděpodobné nalezení mnoha lokálních zarovnání s vysokým skóre. • Existují překrývající se a nepřekrývající se části (motivy). • Existují symetrické a asymetrické metody: • asymetrické – hledá se opakující se část z jedné sekvence v druhé (ale už ne naopak).
Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části • Zavádí se práh skóre T pro zanedbání krátkých lokálních zarovnání. • y – sekvence obsahující část (motiv). • x – sekvence, v níž vyhledáváme opakované části. • Matice F je použita tak, že x je rozděleno na části, které • souhlasí s částmi v y v lokálních zarovnáních s mezerami, • nesouhlasí s ničím.
Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části • F(i,j) je konstruována rekurzivně. • Inicializace je F(i,j)=0. • Po té se matice plní podle:
Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části • Vztah pro F(i,0) zajišťuje nesouhlasící oblasti a konce zarovnání (v případě, že skóre převýší práh T). • Vztah pro F(i,j) zajišťuje začátky zarovnání a prodloužení.