620 likes | 789 Views
PRZEWIDYWANIE S TRUKTUR RNA. Maciej Szymański. mszyman@ibch.poznan.pl. 1958. 1970. 1980s. Około 98% sekwencji DNA podlegających transkrypcji w genomach ssaków nie koduje białek 3'-UTR, 5'-UTR introny ncRNA (~50% transkryptów). Transcriptional activity of genomes. Transcriptome.
E N D
PRZEWIDYWANIE STRUKTUR RNA Maciej Szymański mszyman@ibch.poznan.pl
Około 98% sekwencji DNA podlegających transkrypcji wgenomach ssaków nie koduje białek • 3'-UTR, 5'-UTR • introny • ncRNA (~50% transkryptów)
Struktury RNA w regulacji ekspresji genów Regulacja transkrypcyjna • Ryboprzełączniki zmieniające strukturę w zależności od warunków regulują ekspresję wielu genów bakteryjnych Regulacja potranskrypcyjna • TAR i RRE są strukturami kluczowymi dla propagacji HIV • Struktury 3’- i 5’-UTR są odpowiedzialne za regulację translacji niektórych mRNA • IRES (internal ribosome entry site) umożliwia inicjację translacji niezależną od rozpoznania 5’-końcowej modyfikacji i udziału białkowych czynników inicjacyjnych
RNA jako termosensor U Listeria monocytogenes geny odpowiedzialne za wirulencję kontrolowane są przez aktywator transkrypcji PrfA, którego ekspresja zachodzi w temperaturze 37ºC. W niższych temperaturach 5‘-UTR prfA mRNA tworzy strukturę blokującą sekwencję Shine-Dalgarno uniemożliwiając translację białka PrfA i w konsekwencji transkrypcję genów wirulencji. Mutacje destabilizujące lub stabilizujące proponowaną strukturę drugorzędową prowadzą do odpowiednio obniżenia lub podwyższenia temperatury aktywacji. SD Start
RNA jako chemosensor U bakterii 5’-UTRy mRNA kodujących białka związane z syntezą i transportem FMN (mononukleotyd flawiny) tworzą struktury drugorzędowe odpowiedzialne za regulację ich ekspresji na poziomie transkrypcji. Związanie FMN do tej struktury powoduje zmianę konformacji i terminację transkrypcji.
Niekodujące RNA DsrA RNA: 87 nt induced in low temperature stimulates expression of RpoS (stress s factor of RNA polymerase) OxyS RNA: 107 nt induced by oxidative stress negative regulator of RpoS, and H-NS (global transcriptional factor)
Struktura RNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUUUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA
Struktura drugorzędowa RNA Zbiór par nukleotydów Sekwencja RNA R o długości n można zapisac jako uporządkowany ciąg rybonukleotydów: R = r1; r2; r3; : : : ; rn, gdzie rijest i-tym rybonukleotydem. Każdy rinależy do zbioru {A;C; G;U} (bez uwzględnienia modyfikowanych nukleotydów). Struktura drugorzędowa S sekwencji R jest zbiorem uporządkowanych par i.j, 1 i < j n takich że: 1. j − i > 3 (pętle typu hairpin nie mogą być krótsze niż 3 nukleotydy) 2. jeśli i.j i i’.j’ są dwoma parami zasad: • i = i’ i j = j’ (i.j oraz i’.j’ są tą samą parą) • i < j < i’ < j’ (i.j poprzedza i’.j’) • i < i’ < j’ < j (i.j obejmuje i’.j’). Warunek c) wyklucza pseudowęzły (pseudoknots).
Pseudowęzły Pseudowęzły tworzone są gdy dwie pary zasad, i.j i i’.j’ spełniają warunek i < i’ < j < j’ Pseudowęzły nie są uwzględniane w algorytmach przewidywania struktury drugorzędowej ze względu na brak parametrów energetycznych. Są to faktycznie elementy struktury trzeciorzędowej i mogą być znajdowane we wcześniej obliczonych strukturach drugorzędowych lub metodami porównawczej analizy sekwencji. j i’ j’ i
RNaseP RNA Group I intron
Metody przewidywania struktur drugorzędowych RNA Dla pojedynczych łańcuchów RNA • maksymalizacja liczby sparowanych nukleotydów • minimalizacja energii swobodnej • prawdopodobieństwo tworzenia par zasad Dla grup homolgicznych cząsteczek • metody porównawcze (kowariacje) • metody statystyczne
Algorytm Ruth Nussinov (1978) Poszukiwanie optymalnej struktury zawierającej maksymalną liczbę sparowanych nukleotydów Dozwolone są struktury zawierające pętle typu hairpin o dowolnej długości (w rzeczywistości dopuszczalne są pętle przynajmniej 3-nukleotydowe) Możliwe są struktury zawierające izolowane pary zasad (helisy o długości 1-bp)
Algorytmy oparte o minimalizację energii swobodnej G-C -3 kcal/M A-U -2 kcal/M G-U -1 kcal/M Założenie:cząsteczki RNA przyjmują strukturę o najniższej możliwej energii Najprostszą drogą jest poszukiwanie struktury o minimalnej energi z zastosowaniem prostych parametrów enegetycznych przypisanych poszczególnym parom zasad w zależności od siły wiązania (liczby wiązań wodorowych). Energia, E(S) dla całej struktury jest sumą energii poszczególnych par zasad i.j,e(ri,rj)
mfold(Zuker & Stadler 1981, Zuker 1989) W programie mfold parametry energetycznenie są przypisane parom zasad ale pętlom, stanowiącym regiony struktury drugorzędowej ograniczone jedną lub większą liczbą par zasad. Każdą strukturę drugorzędową można przedstawić jako zbiór pętli Pętle zamknięte jedną parą zasad i.j zwane są pętlami typu spinki do włosów (hairpin loop) a ich wielkość j – i – 1 3
mfold(Zuker & Stadler 1981, Zuker 1989) Pętle zamknięte dwoma parami zasad i.j i i’.j’ dzielą się na trzy typy: stacked pairsjeśli i’–i– 1 = 0 oraz j–j’– 1 = 0 wybrzuszenie (bulge) jeśli i’–i– 1 > 0 lub j–j’– 1 > 0 pętla wewnętrzna (interior loop) jeśli i’–i– 1 > 0 orazj–j’– 1 > 0 a b c
mfold(Zuker & Stadler 1981, Zuker 1989) Pętle zamknięte większą liczbą par zasad zwane są pętlami wielorozgałęzionymi (multibranch loops) Każdą strukturę drugorzędowa można opisać jako zbiór pętli należących do jednego z w/w pięciu typów oraz niesparowanych regionów przy końcach.
Stack -3.40 External closing pair is G 1-C 14 Stack -1.40 External closing pair is C 2-G 13 Stack -1.30 External closing pair is G 3-U 12 Stack -2.10 External closing pair is A 4-U 11 Helix -8.20 5 base pairs Hairpin loop 0.20 Closing pair is G 5-C 10 mfold(Zuker & Stadler 1981, Zuker 1989) mfold generuje zbiór struktur, które ewaluowane są w oparciu o parametry energetyczne (empiryczne i teoretyczne) dla poszczególnych pętli. Wyliczona energia jest sumą energii wszystkich elementów składowych. http://www.bioinfo.rpi.edu/~zukerm/cgi-bin/efiles-3.0.cgi
Problemy: Przewidywane struktury o minimalnej energii rzadko odpowiadają strukturom uzyskanym z filogenetycznej porównawczej analizy sekwencji Energie wyliczone dla filogenetycznych struktur tym bardziej odbiegają od przewidywanych wartości minimalnych im dłuższe są analizowane sekwencje Liczba suboptymalnych struktur drugorzędowych jest bardzo duża co nie pozwala (przy obecnych ograniczeniach mocy obliczeniowej) na ewaluacje wszystkich możliwości. Parametry energetyczne nie uwzględniają oddziaływań trzeciorzędowych takich jak niestandardowe pary zasad , pseudowęzły, oddziaływania trójek nukleotydów, któr mogą mieć wpływ na tworzenie struktury drugorzędowej w komórce Długie lańcuchy RNA niekoniecznie muszą przyjmować strukturę o minimalnej energii. Ich konformacja może być wymuszona kinetyką procesu tworzenia stuktury drugorzędowej, co komplikuje obliczenia w stopniu nie pozwalającym na praktyczną implementację.
mfold server http://www.bioinfo.rpi.edu/applications/mfold/rna/form1.cgi Pełna wersja programu Zukera dostępna sieciowo poprzez formularz na stronie WWW Obecna wersja pozwala na przewidywanie struktur RNA o długości do 6000 nukleotydów (800 interaktywnie) Wyniki prezentowane są w postaci graficznej (struktury, dot ploty) w różnych formatach Użytkownik ma możliwość zmiany niektórych parametrów programu, co pozwala na poszerzenie lub zawężenie zakresu przewidywanych struktur suboptymalnych
mfold server opcje percent suboptimality - wartość procentowa energii optymalnej struktury do której generowane są struktury alternatywne (w praktyce dla długich łańcuchów ograniczona do –12 kcal/M) upper bound number of computed foldings – określa maksymalną dozwoloną liczbę struktur (domyślna wartość 50) window – określa ile i jak zbliżonych (podobnych) do siebie struktur ma być wygenerowane. Niższa wartość powoduje zwiększenie liczby struktur suboptymalnych nieznacznie od siebie róznych. Domyślnie ustawiany jest w zależności od długości sekwencji. 0- 29 nt W=0; 30- 49 nt W=1; 50- 119 nt W=2; 120-199 nt W=3; 200- 299 nt W=5; 300- 399 nt W=7; 400-499 nt W=8; 500- 599 nt W=10; 600- 699 nt W=11; 700-799 nt W=12; 800-1199 nt W=15; 1200-1999 nt W=20 > 1999 nt W=25
mfold server opcje maximum interior/bulge loop size – pozwala na ograniczenie wielkości pętli wewnętrznych i wybrzuszeń (domyślnie 30) maximum asymmetry of an interior bulge loop size – dla wybrzuszeń jest to maksymalna ich długość, dla pętli wewnętrznych określa jaka jest dopuszczalna różnica długości ich fragmentów jednoniciowych maximum distance between paired bases – pozwala na ograniczenie wielkości domen zamkniętych jedną parą zasad (domyślnie bez ograniczeń) temperature – dostepna tylko w wersji 2.3, w wersji 3.1 stała - 37°C
mfold server opcje Dodatkowe opcje pozwalają na ograniczenie liczby struktur przez wymuszenie parowania lub pozostawienia jako jednoniciowych określonych nukleotydów lub fragmentów sekwencji. Wrunki te wprowadz się w polu constraint information wymusznie parowania odcinka sekwencji F i 0 k gdzie i – pozycja pierwszego nukleotydu; k – długość odcinka F 7 0 4 – nukleotydy 7, 8, 9 i 10 muszą być sparowane wymuszanie nieprzerwanego odcinka dwuniciowego F i j k gdzie i oraz j definiują pierwszą parę zasad a k określa ile kolejnych par zasad ma zostać wymuszona F 5 34 4 – w strukturach powinien wystąpić region dwuniciowy zawierający pary zasad 5-34, 6-33, 7-32 i 8-31 W podobny sposób definiuje się regiony które mają pozostać jednoniciowe zastępując F na początku definicji P.
S. cerevisiae tRNAPhe F 1 72 7 F 10 25 4 F 27 43 5 F 49 65 5
Metody probabilistyczne Vienna RNA package http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi RNAfold oblicza prawdopodobieństwo tworzenia par zasad w strukturze drugorzędowej w oparciu o analizę wszystkich możliwych alternatywnych konformacji. Wynikiem nie jest pojedyncza optymalna struktura lecz zbiór wartości prawdopodobieństwa dla poszczególnych par. Dodatkowo (niezależnie) generowana jest struktura o najniższej energii w oparciu o parametry identyczne z tymi wykorzystywanymi przez mfold.
Sequence design server http://www.tbi.univie.ac.at/~ivo/RNA/RNAinvcgi.html Inverse folding: optymalizacja sekwencji wg parametrów energetycznych lub statystycznych do zadanej struktury drugorzędowej Dane wejściowe: struktura druogorzędowa w postaci zapisu nawiasowego (do 100 pozycji) Wynik: optymalna sekwencja przyjmująca zadaną strukturę GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGG (((((((..((((........)))).(((((.......))))) AGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA .....(((((.......))))))))))))....
tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGA Opt GCGGAUGUAGCUCAGUUGUGAGAGCGCCAGAGAGAUGA tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA Opt UCUGGAAGUACUGUGUUCGAUCCACAGCAUUCGCACCA tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGA OptCCGAAGUAUGUCCUCGUAACUGGGCUGGAUAGAACGCA tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA Opt UAUCCCGAAACUGUAACGCUAAUACAGACUUUGGCACA
ILM server http://cic.cs.wustl.edu/RNA/ Przewidywanie struktur drugorzędowych zawierających pseudowęzły. Dane wejściowe: pojedyncza sekwencja lub alignment homologicznych sekwencji w formacie FASTA (do 10 kb) Wyniki prezentowane w kilku formatach (m.in. pliki ct, dot ploty)
ILM server: 5S rRNA Dane wejściowe: Alignment 4 bakteryjnych sekwencji 5S rRNA 1 2 3 4 5 6 4 6 5 UGCCUGGCGGCCAUAGUGCGGUGGUCCCACCUGACCCCAUGCCGAACUCAGAAGUGAAAC 60 ....((((((((((...(((.......(((((((.............))))..))).... ......................(((...............)))................. 3 2 7 7 1 GCUGUAGCGCCGAUGGUAGUGUGGGGUCUCCCCAUGUGAGAGUAGGGAACUGCCAGGCAU 120 ..))).......))))..((((((((...))))))))............))))))..... ............................................................
tRNA RNAfold mfold ILM
E. coli RydC RNA mfold RNAfold ILM
Przewidywanie struktur dla zbiorów homologicznych sekwencji Zakłada się, że RNA pełniące takie same funkcje w wiekszym stopniu zachowują struktury drugorzędowe niż sekwencje. Analiza większej liczby przypadków sprawia, że przewidywania są bliższe rzeczywistości • Metody porównawczej analizy sekwencji • Metody mieszane z zastosowaniem algorytmów stosowanych dla pojedynczych cząsteczek i analizy porównawczej
Mutual information Zawartość informacyjna dwóch kolumn alignmentu sekwencji RNA opiera się na założeniu, że jeśli dane dwie kolumny i i jsą niezależne (nie obejmują nukleotydów tworzących pary zasad) to częstotliwość występowania par nukleotdów N1,N2 odpowiednio w pozycjach i i j - fi,j(N1,N2)odpowiada w przybliżeniu iloczynowi częstotliwości wystepowania N1 w pozycji i -fi(N1) i częstotliwości wystepowania N2 w pozycji j - fj(N2) . A zatem: Jeśli zmiany w kolumnach są ze sobą związane wartość ta będzie większa od 0.
Mutual information Częstotliwości nukleotydówN1iN2w pozycjachioraz j Częstotliwość występowania pary N1,N2
kolumny 1 i 15 GAAGAGUAUGUCUUC GGAGUGU-UGACUCC GCAGCGUGUGGCUGC GUAGAGUAUGUCUAC GCAGAGU-UGUCUGC ***** ***** f1,15(G,C) = 1 f1(G) = 1 f15 (C) = 1 M1,15 = 1 x log21 = 0 kolumny 2 i 14 f2,14(A,U) = 0.2 f2,14(G,C) = 0.2 f2,14(C,G) = 0.4 f2,14(U,A) = 0.2 f2(A) = 0.2 f2(C) = 0.4 f2(G) = 0.2 f2(U) = 0.2 f14 (A) = 0.2 f14(C) = 0.2 f14 (G) = 0.4 f14 (U) = 0.2 M2,14 = 0.2 x log25 + 0.2 x log25 + 0.4 x log22.5 + 0.2 x log25 = 3 x 0.46 + 0.53 = 1.91
Mutual information: 5S rRNA 316 sekwencji 5S rRNA Eukaryota
Przewidywanie zachowawczych elementów struktury drugorzędowej Hofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res.26: 3825-3836
Consensus structures of the HIV-1 RRE (Rev Resposnive Element) region from a sets of 13 and 21 sequences. The main hairpins are present in both predictions; the only difference is hairpin IIa which is supported by a single compensatory base pair in the larger data set. The predictions are consistent with an experimentally supported structure that also contains IIa. Hofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res.26: 3825-3836
Alifold server http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi Przewidywanie pojedynczych struktur, dla grup homologicznych sekwencji, wprowadzanych jako alignment w formacie Clustal. Wyniki: struktura kompatybilna z wprowadzonym alignmentem sekwencji, prawdopodobieństwa występowania poszczególnych par zasad w postaci wykresu (dot plot) oraz pliku tekstowego.
Alifold server: 5S rRNA Alignment 11 sekwencji eukariotycznych 5S rRNA 11 sequence; length of alignment 122 alifold output 3 117 0 100.0% 0.000 CG:6 GC:1 UG:1 AU:2 UA:1 69 106 0 99.9% 0.002 CG:4 GC:1 UG:1 AU:1 UA:4 19 59 0 100.0% 0.000 CG:2 GC:2 AU:1 UA:6 15 64 0 99.1% 0.029 CG:7 UG:2 AU:1 UA:1 30 47 0 100.0% 0.000 CG:3 GC:5 AU:3 17 61 0 100.0% 0.000 CG:6 GC:3 UA:2 4 116 0 100.0% 0.001 GC:1 AU:1 UA:9 81 95 0 99.7% 0.009 CG:2 GC:8 GU:1 29 48 0 99.6% 0.012 CG:9 GC:1 UA:1 1 119 0 99.5% 0.014 GC:8 GU:1 AU:2 2 118 1 100.0% 0.001 CG:4 GC:2 GU:1 UG:2 UA:1 18 60 0 100.0% 0.000 CG:3 GC:8
CARNAC http://bioinfo.lifl.fr/carnac/ Przewidywanie struktur dla grup homologicznych sekwencji RNA z wykorzystaniem kombinacji metod minimalizacji energii, analizy porównawczej i zachowawczości poszczególnych par zasad. Nie wymaga wstępnego generowania alignmentów. Wyniki: pojedyncze struktury dla poszczególnych sekwencji prezentowane w postaci graficznej oraz plików ct.