540 likes | 725 Views
Bioinformatika. Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz. Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz. http://bio.img.cas.cz/kurs. Základní výpočty na prostorových strukturách biomolekul. Obecné problémy.
E N D
Bioinformatika Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz http://bio.img.cas.cz/kurs
Základní výpočty na prostorových strukturách biomolekul
Obecné problémy • Jak reprezentovat strukturu ve výpočtu? • Jak srovnávat struktury? • Jak popsat strukturní rodiny?
Popis • Základní způsob jak representovat strukturu • Délky vazeb, vazebné úhly, torzní (dihedrální)úhly • Systém souřadnic - xyz (cartesian) - vnitřní souřadnice - objektové reprezentace • Srovnávání struktur, RMSD – root mean square distance mezi dvěma strukturami
Základní geometrická měření a operace Délky vazeb Úhly mezi vazbami Torzní (dihedrální úhly)
Délka vazby • Vzdálenost mezi vazebnými atomy je konstantní • Závisí na typu vazby (jednoduchá C—C, dvojná C==C, trojná C C) • Mění se od přibližně 1A C—H, až k 1.5 A C—C, Některé jsou ještě delší Délka vazby je funkcí pozice dvou atomů
Výpočet vazebné vzdálenosti Pro dva body o souřadnicích (x1,y1,z1) a (x2,y2,z2) Vzdálenost = sqrt [(x2-x1)2 + (y2-y1)2 + (z2-z1)2] Některé vzdálenosti nekovalentně vázaných atomů jsou V páteři proteinu konstantní Ca – Ca vzdálenosti jsou u konsekutivního peptidu 3.8A
Vazebné úhly • Všechny vazebné úhly jsou určeny uspořádáním tří sousedních vazebných atomů a jsou pro danný typ konstantní • Závisí na typu atomu a množství elektronů zahrnutých ve vazbě • Interval je od 100 do 180 Vazebný úhel je funkcí pozice tří atomů
Výpočet vazebného úhlu B x Q y A C X.Y = |X|.|Y|.cos (Q) Q = acos (X.Y/|X|.|Y|) Úhel lze určit výpočtem arccosinu úhlu, který svírají vektory určené BA a BC
Dihedrální úhel • obvykle je velmi variabilní • může zaujímat hodnoty od 0 do 360 • Nejznámější torzní úhly jsou f,y,w a c •Dihedrální úhel je funkcí pozice 4 atomů
Dihedrální úhel A C B A D f B C D
Výpočet dihedrálního úhlu • Výpočet úhlu sevřeného vektory kolmými k rovinám • které jsou definovány • Vektory BA a CB • Vektory CB a DC • Úhel mezi těmito dvěma vektory je dihedrální úhel A B C D
Důležité dihedrální úhly O N Ca N C C Ca C N Ca O O w - Ca Ca y N - N f C - C
Omega je konstantní = 180 (C-N volně nerotuje) Phi,Psi mají interval hodnot (Ca-N, N-C mohou rotovat) Interval hodnot je omezen prostorovým uspořádáním Aminokyselin v sekvenci za sebou O N Ca N C C Ca C N Ca O O
Ramachandranův Plot a typické hodnoty dihedrálních úhlů v prvcích sekundární struktury • Alpha šroubovice phi = - 57, psi = - 47 • Paralelní beta řetězec phi = - 119, psi = 113 • Antiparalelní beta řetězec phi = - 139, psi = 135 • 3-10 šroubovice phi = - 49, psi = - 26
PROCHECK summary for 1aaq • Ramachandran plot • PROCHECK statistics • 1. Ramachandran Plot statistics • No. of residues %-tage • ------ ------ • Most favoured regions [A,B,L] 146 92.4% Additional allowed regions [a,b,l,p] 12 7.6% • Generously allowed regions [~a,~b,~l,~p] 0 0.0% • Disallowed regions [XX] 0 0.0% • ---- ------ • Non-glycine and non-proline residues 158 100.0% • End-residues (excl. Gly and Pro) 2 • Glycine residues 26 • Proline residues 12 • ---- • Total number of residues 198
Rotační matice • Rotační atice je 3x3 matice jednotkových vektorů které jsou orthogonální • Znázorňuje transformaci bodu v souřadnicovém systému ( 100,010,001) na koordináty danné transformační maticí
1 0 0 0 cosQ -sin Q 0 sin Q cos Q R(X,Q) = cos Q 0 sin Q 0 1 0 -sin Q0 cos Q R(Y,Q) = Rovnice jak rotovat kolem libovolné osy o úhel theta cos Q -sin Q 0 sin QcosQ 0 0 0 1 R(Z,Q) =
Souřadné soustavy jiné než Cartesiánské • Cartesiánský souřadný systém je ortogonální (x,y,z) a udávají se v něm koordináty většiny struktur • Jsou li ovšem délky vazeb a vazebných úhlů konstantní, je možné množství souřadnic redukovat a popisovat pouze dihedrální úhel • Tzv. Schema vnitřních souřadnic
Výhody 3 peptidové jednotky = 12 atomů = 36 souřadnic NEBO 6 dih. úhlů 3 postranní řetězce = 12 atomů =36 souřadnic NEBO 5 dih. Úhlů 72 cartesiánských souřadnic versus 11 vnitřních
Nevýhody Některé základní výpočty jsou mnohem obtížnější Vzdálenost mezi dvěma body Určení nejbližších bodů (atomů) k určitému bodu Obtížně lze porovnávat nezávislé objekty Mnohem více nelineárních vztahů mezi souřadnicemi což může činit optimalizaci obtížnou nebo nemožnou
Souřadný systém objektový • pokud víme že je určitá část proteinu ve standartní konformaci přesně definované pomocí sekundární struktury, můžeme na ni pohlížet jako na „pevné těleso“ • Např. šroubovici a její umístění v prostoru lze representovat minimálně 6 souřadnicemi
Souřadný systém objektový Můžeme vystavět šroubovici v normálním Koordinačním systému (x,y,z) a potom K určení jeího umístění v proteinu použít Operace TRANSLACE a ROTACE T,R
Porovnávání struktur • K porovnávání dvou struktur A a B potřebujeme • několik základních údajů • Který atom z A koresponduje s kterým atomem z B • proto děláme sekvenční alignment • Kde v prostoru jsou atomy lokalizovány • soubory z PDB • 3. Potřebujeme kriteria pro srovnání
Kriteria pro porovnání struktur Atomy bereme jako rovnocenné a hledáme informaci jak lze dvě struktury vzájemně superponovat Jsou li struktury identické, potom jejich vzdálenost je rovna 0 Jsou li struktury různé vzdálenost vzrůstá
“RMSD = root mean square deviation” S d2i RMSD = N N je počet atomů di je vzdálenost dvou atomů s indexem i struktur A a B
Výpočet RMSD • Může být formulován jako neefektivní prohledávání kolem superpozičního centra jímž je těžiště (Huang,Blostein,Margerum) • Metody založené na kvarternionech (Faugeras a Hebert) • Metody založené na singularitě speciálně konstruovaných matic (Arun, Huang, Blostein)
Algoritmus Tzv. Arun algorithm • Vypočte se centroid ze všech bodů daného objektu • Centroidy se odečtou, oba objekty mají stejný počátek • Sestrojí se speciální matice jako suma jednotlivých vektorových produktů (vzdálenost, úhel, dihedrál) • Dekompozice matice použitím tzv. Singulární dekompozice a použití výsledné matice ke konstrukci optimální rotace • Výpočet translace k provedení optimální rotace Tento algoritus je optimální a univerzální pro široké Spektrum podmínek
Výhody a nevýhody RMSD • Přiměřené chování, identické struktury mají RMSD =0 • Jednoduchost výpočtu • Přirozené jednotky (Angstroms) • Zkušenost ( podobné struktury mají RMSD obvykle v rozmezí 1 – 3 A) • Váha všech atomů je stejná • Nejasné hranice (vazebné podmínky) • Význam hodnot se mění jako funkce velikosti proteinu
Formulace problému Pro daný pár molekulárních struktur nalézt korespondenci mezi souřadnicemi atomů, jež povede k nejlepšímu alignmentu
Nejlepší znamená ve smyslu “nejmenší RMSD” Nevýhody: alignment pro několik atomů vynikající pro zbytek nevyhovující
Strukturní alignment Nutno zohlednit: - Počet odpovídajících aminokyselin pro dannou korespondenci - RMSD těchto aminokyselin - Procento identity v „aligned residues“ - Počet vnesených „gaps“ - Velikost těchto dvou proteinů - Místa s konzervovanou sekvencí Nejsou žádná universální kriteria. Vše závisí na cíli.
Upozornění Jedná se o jiný druh problému než při určení RMSD dvou proteinů při danné korespondenci atomů V tomto případě nevíme které atomy porovnávat s kterými. Z toho důvodu je nutno podniknout Kombinatoriální analýzu všech možnýck korespondencí RMSD se užívá jako nástroj k určení korespondence
Proč dělat strukturní alignment • Pro homologní proteiny (podobný předek) • je to jakýsi „zlatý standard“ pro sekvenční alignment • Pro nehomologní proteiny nám metoda umožňuje • určit obecné či příbuzné substruktury • Dovoluje nám klasifikovat proteiny do klastrů • založených na strukturní podobnosti
Jak lze rozeznat strukturní podobnost • Podle oka • Algoritmicky • - bodová metoda využívá vlastností bodů či • vzdáleností k určení korespondencí • metody založené na sekundární struktuře používají • vektorovou reprezentaci ss k určení korespondence
Tři prototypové metody strukturního alignmentu • STRUCTAL (Levitt, Subbiah, Gerstein) • dynamické programování pro refinement startovního alignmentu • DALI (Holm, Sander) • používá matice vzdáleností k nalezení podobných vzorků • naznačujícím korespondenci (optimalizace pomocí MC) • LOCK (Singh, Brutlag) • používá vektory asociované s prvky ss k rychlému screening podobnosti
Neatomová reprezentace struktury, 3D MOTIFS Jak struktura projevuje svou funkci ?
Představu o funkci struktury lze získat simulací molekulovou dynamikou. Fyzikální síly mezi atomy jsou tedy podstatou veškerých funkcí které struktura nese. Otázka: Lze nalézt strukturní motiv který je přímo nositelem hledané funkce?
POPIS A VYUŽITÍ • 3D MOTIF, podobně jako 1D MOTIF, popisuje • konzervovaný rys určitého uspořádání nebo • prostředí. • Tyto strukturní rysy společné určité funkci a • struktuře lze popsat statisticky • Lze nalézt tento strukturní rys ve struktuře • Použití 3D MOTIF k rozeznání celé strukturní • třídy (fold recognition = threading)
Příklad: Aspartátové proteázy • Třída enzymů které štěpí polypeptidickou (hlavní řetězec) vazbu • Sekvenční analýza ukazuje, že tyto enzymy sdílí společný sekvenční rys. Asp,Thr,Gly aminokyseliny v aktivním místě • Kromě tohoto sekvenčního znaku sdílejí tyto proteázy množství fyzikálně chemických vlastností, které jim umožňují plnit stejnou funkci.
3D Motifs Sekvenční motiv je popis relativně konzervovaného lokálního sekvenčního rysu, který lze korelovat s funkcí analogicky Strukturální motiv je popis relativně konzervovaného strukturního rysu, který lze korelovat s funkcí
3D MOTIFS Způsob definice V 1D případě provedeme alignment sekvencí a vytvoříme pravděpodobnostní model pro dannou aminokyselinu v danném místě Analogicky lze totéž provést pro strukturu. Určíme, jaká aminokyselina se vyskytuje v danném strukturním kontextu (FFF, Skolnick and Fetrow, JMB, 1998) Aminokyseliny nemusí být nejvhodnější úroveň popisu
Možné deskriptory • Typ atomu (C,N,O,H,S...) • Typ funkční skupiny (OH,CH3,NH,C=O..) • Typ aminokyseliny (Val,Tyr,Gly..) • Typ sekundární struktury nebo obecně geometrického parametru • Fyzikální parametry (mobilita, elektronegativita náboj, hydrofobicita)
INPUT: Sada struktur s možným motivem a sada kontrolních struktur , které motiv jistě neobsahují. OUTPUT: konzervovaný fyzikálně chemický, biochemický rys uvnitř struktur, které je odlišují od kontrolních Opuštění striktně strukturálních vlastností spojených s atomy k obecnější formě popisu pro statistické zpracování.
Příklad prohledávacího protokolu: 1.Definice zajímavého nebo důležitého místa 2.Definice objektu, který nemá vlastnosti místa 3.Definice kritických vlastností spojených s atomy 4.Sestrojení 3D sítě která obsahuje jako hodnoty tyto vlastnosti 5.Definice objemové jednotky, a vytvoření kvadru pólu 4 deskriptorů - vlastnost - objem - distribuce hodnot v místě motivu - distribuce hodnot v místě bez motivu 6. Metoda pro určení hranic mezi motivem a místem které neodpovídá požadovaným vlastnostem
Příklad: Sada struktur má více negativního náboje v místě kolem pozice x1,y1,z1, ale méně kladného náboje v okolí x2,y2,z2 nebo Sada struktur má výraznou deficiency hydrofobních aminokyselin v této oblasti (x3,y3,z3) ale je bohatá na polární aminokyseliny, významně Ser v oblasti x4,y4,z4
Nutno definovat korespondující body v prostoru v danné sadě 1 bod – radiální průměr 2 body – cylindrický průměr 3 body – průměr dvou hemisfér 4 body – není nutné průměrovat