140 likes | 334 Views
Algoritmy pre hľadanie sekundárnej štruktúry RNA reťazcov, vizualizácia sekundárnej štruktúry. Radovan Bachmann Vedúci práce: doc. RNDr. Gabriela Andrejková , CSc . Prírodovedecká fakulta UPJŠ. Ribonukleová kyselina. Primárna štruktúra. Sekundárna štruktúra. Terciálna štruktúra.
E N D
Algoritmy pre hľadanie sekundárnej štruktúry RNA reťazcov, vizualizácia sekundárnej štruktúry Radovan Bachmann Vedúci práce: doc. RNDr. Gabriela Andrejková, CSc. Prírodovedecká fakulta UPJŠ
Ribonukleová kyselina Primárna štruktúra Sekundárna štruktúra Terciálna štruktúra
Sekundárna štruktúra RNA • Jednoreťazcové molekuly RNA sa na niektorých miestach sa ohýbajú a tvoria sekundárnu štruktúru (vlásenka alebo stopková slučka).
Typy slučiek Viacnásobnáslučka (multiloop) Párybáz (base pairs) Vnútornáslučka (internal loop) Vydutina (bulge) Vonkajšiaslučka (internal loop) Sponka (hairpin)
Algoritmus pre nájdenie štruktúry s minimálnou voľnou energiou • Predpoklad : bifurcation slučky majú nulovú energiu • Algoritmus počíta 2 rôzne energie W(i,j),V(i,j) pre každú subsekvenciuSij pre každú danú RNA sekvenciu • Ak Si a Sj netvoria bázový pár → V(i,j) = ∞ • V(i,j) a W(i,j) sa počítajú rekurzívne • Tento algoritmus pracuje pridávaním nukleotidu za nejaký čas k sekvencií a zisťovaním najvhodnejšej štruktúry v každom kroku. • Posledné vypočítané číslo W(1,n) je minimálna požadovaná energia v štruktúre S
Výsledky algoritmu • Nie je veľmi čo vylepšovať • Čas, ktorý potrebuje algoritmus je proporcionálny počtu nukleotidov • Počítačová pamäť limituje algoritmus iba do 800 nukleotidov • Program, ktorý ignoruje rozdvojené slučky dokáže spracovať až 1000 nukleotidov
Výpočtové techniky • Algoritmus bol naprogramovaný vo Fortran-e • Bol implementovaný na IBM 3032 procesore • Najefektívnejšia verzia programu uchováva energie matíc W,V ako polovičné celé čísla v rovnakom dvojrozmernom poli. • Bolo napísaných niekoľko verzií programu • jedna nepovoľuje rozdvojené slučky a vypočíta optimálnu štruktúru • Druhá umožňuje vyrezanie istých subsekvencií
U A U G C G A G G U U U G C C C G C A C G G U C G G C ( . . ( ( ( . . . ) . ) ) ( ( ( . ( . . . ) ) ) ) ) . Zátvorkový zápis S = AUGCGAGGUUUCGCCGCACGGUCGGUC
Modelovanie sekundárnej štruktúry • Bezkontextová gramatika pre RNA reťazce: • N={S} • T={a,c,g,u} • S=S S→aSuS→aSS→Sa S→SS S→uSaS→cSS→Sc S→ε S→cSgS→gSS→Sg S→gScS→uSS→Su P=
Ciele práce • 1. Spracovaťpoznatky o existujúcichalgoritmoch pre hľadaniesekundárnejštruktúry RNA reťazcov. • 2. Skúmať a spracovaťmožnostivylepšenianiektorého z týchtoexistujúcichalgoritmov z hľadiskapamäťovej a časovejzložitosti. • 3. Vytvoriťaplikáciunavizualizáciusekundárnejštruktúrynazákladezátvorkovejalebo WUSS notácie.
Odporúčaná literatúra • 1. R. Durbin, S. Eddy, A. Krogh, G. Mitchinson: Biologicalsequenceanalysis. (Probabilisticmodels of proteins and nucleicacids). CambridgeUniversity Press, 2009. • 2. M. Zuker, P. Stiegler: OptimalComputerfolding of large RNA sequencesusingthermodynamics and auxiliaryinformation. NucleicAcidsResearch 9:133-148, 1981. • 3. D. Sankoff: Simultaneoussolution of the RNA folding, alignment, and protosequenceproblems. SIAM J. Appl. Math. 1985, Vol. 45, p. 810-825. • 4. Y. Wexler, C. Zilberstein, M. Ziv-Ukelson: A Study of AccessibleMotifs and RNA FoldingComplexity. Journal of ComputationalBiology, 2007, Vol. 14.