Bioinformatika

Bioinformatika Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz http://bio.img.cas.cz/kurs

Základní výpočty na prostorových strukturách biomolekul

Obecné problémy • Jak reprezentovat strukturu ve výpočtu? • Jak srovnávat struktury? • Jak popsat strukturní rodiny?

Popis • Základní způsob jak representovat strukturu • Délky vazeb, vazebné úhly, torzní (dihedrální)úhly • Systém souřadnic - xyz (cartesian) - vnitřní souřadnice - objektové reprezentace • Srovnávání struktur, RMSD – root mean square distance mezi dvěma strukturami

Základní geometrická měření a operace Délky vazeb Úhly mezi vazbami Torzní (dihedrální úhly)

Délka vazby • Vzdálenost mezi vazebnými atomy je konstantní • Závisí na typu vazby (jednoduchá C—C, dvojná C==C, trojná C C) • Mění se od přibližně 1A C—H, až k 1.5 A C—C, Některé jsou ještě delší Délka vazby je funkcí pozice dvou atomů

Výpočet vazebné vzdálenosti Pro dva body o souřadnicích (x1,y1,z1) a (x2,y2,z2) Vzdálenost = sqrt [(x2-x1)2 + (y2-y1)2 + (z2-z1)2] Některé vzdálenosti nekovalentně vázaných atomů jsou V páteři proteinu konstantní Ca – Ca vzdálenosti jsou u konsekutivního peptidu 3.8A

Vazebné úhly • Všechny vazebné úhly jsou určeny uspořádáním tří sousedních vazebných atomů a jsou pro danný typ konstantní • Závisí na typu atomu a množství elektronů zahrnutých ve vazbě • Interval je od 100 do 180 Vazebný úhel je funkcí pozice tří atomů

Výpočet vazebného úhlu B x Q y A C X.Y = |X|.|Y|.cos (Q) Q = acos (X.Y/|X|.|Y|) Úhel lze určit výpočtem arccosinu úhlu, který svírají vektory určené BA a BC

Dihedrální úhel • obvykle je velmi variabilní • může zaujímat hodnoty od 0 do 360 • Nejznámější torzní úhly jsou f,y,w a c •Dihedrální úhel je funkcí pozice 4 atomů

Dihedrální úhel A C B A D f B C D

Výpočet dihedrálního úhlu • Výpočet úhlu sevřeného vektory kolmými k rovinám • které jsou definovány • Vektory BA a CB • Vektory CB a DC • Úhel mezi těmito dvěma vektory je dihedrální úhel A B C D

Důležité dihedrální úhly O N Ca N C C Ca C N Ca O O w - Ca Ca y N - N f C - C

Omega je konstantní = 180 (C-N volně nerotuje) Phi,Psi mají interval hodnot (Ca-N, N-C mohou rotovat) Interval hodnot je omezen prostorovým uspořádáním Aminokyselin v sekvenci za sebou O N Ca N C C Ca C N Ca O O

Ramachandranův Plot a typické hodnoty dihedrálních úhlů v prvcích sekundární struktury • Alpha šroubovice phi = - 57, psi = - 47 • Paralelní beta řetězec phi = - 119, psi = 113 • Antiparalelní beta řetězec phi = - 139, psi = 135 • 3-10 šroubovice phi = - 49, psi = - 26

PROCHECK summary for 1aaq • Ramachandran plot • PROCHECK statistics • 1. Ramachandran Plot statistics • No. of residues %-tage • ------ ------ • Most favoured regions [A,B,L] 146 92.4% Additional allowed regions [a,b,l,p] 12 7.6% • Generously allowed regions [~a,~b,~l,~p] 0 0.0% • Disallowed regions [XX] 0 0.0% • ---- ------ • Non-glycine and non-proline residues 158 100.0% • End-residues (excl. Gly and Pro) 2 • Glycine residues 26 • Proline residues 12 • ---- • Total number of residues 198

Rotační matice • Rotační atice je 3x3 matice jednotkových vektorů které jsou orthogonální • Znázorňuje transformaci bodu v souřadnicovém systému ( 100,010,001) na koordináty danné transformační maticí

1 0 0 0 cosQ -sin Q 0 sin Q cos Q R(X,Q) = cos Q 0 sin Q 0 1 0 -sin Q0 cos Q R(Y,Q) = Rovnice jak rotovat kolem libovolné osy o úhel theta cos Q -sin Q 0 sin QcosQ 0 0 0 1 R(Z,Q) =

Souřadné soustavy jiné než Cartesiánské • Cartesiánský souřadný systém je ortogonální (x,y,z) a udávají se v něm koordináty většiny struktur • Jsou li ovšem délky vazeb a vazebných úhlů konstantní, je možné množství souřadnic redukovat a popisovat pouze dihedrální úhel • Tzv. Schema vnitřních souřadnic

Výhody 3 peptidové jednotky = 12 atomů = 36 souřadnic NEBO 6 dih. úhlů 3 postranní řetězce = 12 atomů =36 souřadnic NEBO 5 dih. Úhlů 72 cartesiánských souřadnic versus 11 vnitřních

Nevýhody Některé základní výpočty jsou mnohem obtížnější Vzdálenost mezi dvěma body Určení nejbližších bodů (atomů) k určitému bodu Obtížně lze porovnávat nezávislé objekty Mnohem více nelineárních vztahů mezi souřadnicemi což může činit optimalizaci obtížnou nebo nemožnou

Souřadný systém objektový • pokud víme že je určitá část proteinu ve standartní konformaci přesně definované pomocí sekundární struktury, můžeme na ni pohlížet jako na „pevné těleso“ • Např. šroubovici a její umístění v prostoru lze representovat minimálně 6 souřadnicemi

Souřadný systém objektový Můžeme vystavět šroubovici v normálním Koordinačním systému (x,y,z) a potom K určení jeího umístění v proteinu použít Operace TRANSLACE a ROTACE T,R

Porovnávání struktur • K porovnávání dvou struktur A a B potřebujeme • několik základních údajů • Který atom z A koresponduje s kterým atomem z B • proto děláme sekvenční alignment • Kde v prostoru jsou atomy lokalizovány • soubory z PDB • 3. Potřebujeme kriteria pro srovnání

Kriteria pro porovnání struktur Atomy bereme jako rovnocenné a hledáme informaci jak lze dvě struktury vzájemně superponovat Jsou li struktury identické, potom jejich vzdálenost je rovna 0 Jsou li struktury různé vzdálenost vzrůstá

“RMSD = root mean square deviation” S d2i RMSD = N N je počet atomů di je vzdálenost dvou atomů s indexem i struktur A a B

Cílem je nalézt minimum RMSD

Výpočet RMSD • Může být formulován jako neefektivní prohledávání kolem superpozičního centra jímž je těžiště (Huang,Blostein,Margerum) • Metody založené na kvarternionech (Faugeras a Hebert) • Metody založené na singularitě speciálně konstruovaných matic (Arun, Huang, Blostein)

Algoritmus Tzv. Arun algorithm • Vypočte se centroid ze všech bodů daného objektu • Centroidy se odečtou, oba objekty mají stejný počátek • Sestrojí se speciální matice jako suma jednotlivých vektorových produktů (vzdálenost, úhel, dihedrál) • Dekompozice matice použitím tzv. Singulární dekompozice a použití výsledné matice ke konstrukci optimální rotace • Výpočet translace k provedení optimální rotace Tento algoritus je optimální a univerzální pro široké Spektrum podmínek

Výhody a nevýhody RMSD • Přiměřené chování, identické struktury mají RMSD =0 • Jednoduchost výpočtu • Přirozené jednotky (Angstroms) • Zkušenost ( podobné struktury mají RMSD obvykle v rozmezí 1 – 3 A) • Váha všech atomů je stejná • Nejasné hranice (vazebné podmínky) • Význam hodnot se mění jako funkce velikosti proteinu

Strukturní alignment

Formulace problému Pro daný pár molekulárních struktur nalézt korespondenci mezi souřadnicemi atomů, jež povede k nejlepšímu alignmentu

Nejlepší znamená ve smyslu “nejmenší RMSD” Nevýhody: alignment pro několik atomů vynikající pro zbytek nevyhovující

Strukturní alignment Nutno zohlednit: - Počet odpovídajících aminokyselin pro dannou korespondenci - RMSD těchto aminokyselin - Procento identity v „aligned residues“ - Počet vnesených „gaps“ - Velikost těchto dvou proteinů - Místa s konzervovanou sekvencí Nejsou žádná universální kriteria. Vše závisí na cíli.

Upozornění Jedná se o jiný druh problému než při určení RMSD dvou proteinů při danné korespondenci atomů V tomto případě nevíme které atomy porovnávat s kterými. Z toho důvodu je nutno podniknout Kombinatoriální analýzu všech možnýck korespondencí RMSD se užívá jako nástroj k určení korespondence

Proč dělat strukturní alignment • Pro homologní proteiny (podobný předek) • je to jakýsi „zlatý standard“ pro sekvenční alignment • Pro nehomologní proteiny nám metoda umožňuje • určit obecné či příbuzné substruktury • Dovoluje nám klasifikovat proteiny do klastrů • založených na strukturní podobnosti

Jak lze rozeznat strukturní podobnost • Podle oka • Algoritmicky • - bodová metoda využívá vlastností bodů či • vzdáleností k určení korespondencí • metody založené na sekundární struktuře používají • vektorovou reprezentaci ss k určení korespondence

Tři prototypové metody strukturního alignmentu • STRUCTAL (Levitt, Subbiah, Gerstein) • dynamické programování pro refinement startovního alignmentu • DALI (Holm, Sander) • používá matice vzdáleností k nalezení podobných vzorků • naznačujícím korespondenci (optimalizace pomocí MC) • LOCK (Singh, Brutlag) • používá vektory asociované s prvky ss k rychlému screening podobnosti

Neatomová reprezentace struktury, 3D MOTIFS Jak struktura projevuje svou funkci ?

Představu o funkci struktury lze získat simulací molekulovou dynamikou. Fyzikální síly mezi atomy jsou tedy podstatou veškerých funkcí které struktura nese. Otázka: Lze nalézt strukturní motiv který je přímo nositelem hledané funkce?

POPIS A VYUŽITÍ • 3D MOTIF, podobně jako 1D MOTIF, popisuje • konzervovaný rys určitého uspořádání nebo • prostředí. • Tyto strukturní rysy společné určité funkci a • struktuře lze popsat statisticky • Lze nalézt tento strukturní rys ve struktuře • Použití 3D MOTIF k rozeznání celé strukturní • třídy (fold recognition = threading)

Příklad: Aspartátové proteázy • Třída enzymů které štěpí polypeptidickou (hlavní řetězec) vazbu • Sekvenční analýza ukazuje, že tyto enzymy sdílí společný sekvenční rys. Asp,Thr,Gly aminokyseliny v aktivním místě • Kromě tohoto sekvenčního znaku sdílejí tyto proteázy množství fyzikálně chemických vlastností, které jim umožňují plnit stejnou funkci.

3D Motifs Sekvenční motiv je popis relativně konzervovaného lokálního sekvenčního rysu, který lze korelovat s funkcí analogicky Strukturální motiv je popis relativně konzervovaného strukturního rysu, který lze korelovat s funkcí

3D MOTIFS Způsob definice V 1D případě provedeme alignment sekvencí a vytvoříme pravděpodobnostní model pro dannou aminokyselinu v danném místě Analogicky lze totéž provést pro strukturu. Určíme, jaká aminokyselina se vyskytuje v danném strukturním kontextu (FFF, Skolnick and Fetrow, JMB, 1998) Aminokyseliny nemusí být nejvhodnější úroveň popisu

Možné deskriptory • Typ atomu (C,N,O,H,S...) • Typ funkční skupiny (OH,CH3,NH,C=O..) • Typ aminokyseliny (Val,Tyr,Gly..) • Typ sekundární struktury nebo obecně geometrického parametru • Fyzikální parametry (mobilita, elektronegativita náboj, hydrofobicita)

INPUT: Sada struktur s možným motivem a sada kontrolních struktur , které motiv jistě neobsahují. OUTPUT: konzervovaný fyzikálně chemický, biochemický rys uvnitř struktur, které je odlišují od kontrolních Opuštění striktně strukturálních vlastností spojených s atomy k obecnější formě popisu pro statistické zpracování.

Příklad prohledávacího protokolu: 1.Definice zajímavého nebo důležitého místa 2.Definice objektu, který nemá vlastnosti místa 3.Definice kritických vlastností spojených s atomy 4.Sestrojení 3D sítě která obsahuje jako hodnoty tyto vlastnosti 5.Definice objemové jednotky, a vytvoření kvadru pólu 4 deskriptorů - vlastnost - objem - distribuce hodnot v místě motivu - distribuce hodnot v místě bez motivu 6. Metoda pro určení hranic mezi motivem a místem které neodpovídá požadovaným vlastnostem

Příklad: Sada struktur má více negativního náboje v místě kolem pozice x1,y1,z1, ale méně kladného náboje v okolí x2,y2,z2 nebo Sada struktur má výraznou deficiency hydrofobních aminokyselin v této oblasti (x3,y3,z3) ale je bohatá na polární aminokyseliny, významně Ser v oblasti x4,y4,z4

Nutno definovat korespondující body v prostoru v danné sadě 1 bod – radiální průměr 2 body – cylindrický průměr 3 body – průměr dvou hemisfér 4 body – není nutné průměrovat

Bioinformatika

Bioinformatika

Presentation Transcript

Studijn í obor Bioinformatika

Bioinformatika

Bioinformatika gyakorlat (biomérnök hallgatóknak)

BIOINFORMATIKA

Bioinformatika

Bioinformatika

Bioinformatika: iz statisti čke perspektive

Strukturna biologija, bioinformatika, biologija sistema

STRUKTŪRINĖ IR FUNKCINĖ GENOMIKA, PROTEOMIKA IR BIOINFORMATIKA

Bioinformatika a z oktatásban

Bioinformatika

Bioinformatika - Proteomika

Bioinformatika pro PfUK 2002

Bioinformatika pod zimní škola výpočetní chemie, Praha 2006

Bioinformatika Predikce genů, Fylogenetická analýza

BIOINFORMATIKA

Bioinformatika

Bioinformatika Szakirodalmi Tanulmányok 2005 Csörgő Bálint

Bioinformatika

Bioinformatika pro PřfUK 2001

BIOINFORMATIKA

Bioinformatika