190 likes | 343 Views
Instytut Automatyki Politechnika Śląska Gliwice. The distribution of sequence motifs in human genes and their promoters. Gliwice 2010. Regulacja ekspresji genów. Zależności pomiędzy poziomem mRNA i białek. N=2468 R =0.58 . 2. N=423 R =0.47. 2. drożdże. bakterie e. coli. N=511
E N D
Instytut Automatyki Politechnika Śląska Gliwice The distribution of sequence motifs in human genes and their promoters Gliwice 2010
Regulacja ekspresji genów • Zależności pomiędzy poziomem mRNA i białek N=2468 R =0.58 2 N=423 R =0.47 2 drożdże bakterie e. coli N=511 R =0.22 2 człowiek (Abreu et al. 2009) Global signatures of protein and mRNA expression levels Mol. BioSyst., 2009, 5, 1512 – 1526 Raquel de SousaAbreu
Centralny dogmat biologii molekularnej Regulacja ekspresji genów Transkrypcja i translacja są wieloetapowymi procesami regulowanymi na wiele sposobów. TF RBP +/- +/- DNA RNA Białko transkrypcja translacja - miRNA/siRNA Wszystkie 3 mechanizmy bazują na rozpoznawaniu określonych wzorców w sekwencji nukleotydowej
Czynniki transkrypcyjne • Obszar promotora genu Długość obszaru promotora nie jest jednoznacznie określona TF TF DNA TFBS TFBS TFBS TFBS sekwencja genu obszar promotora Białka z rodziny czynników transkrypcyjnych wiążą się z obszarami sekwencji o długości 5-20+ nukleotydów o niejednoznaczne określonej budowie
Czynniki transkrypcyjne • Mechanizmy działania • Stabilizacja bądź blokowanie wiązania polimerazy do DNA • Przyłączanie innych białek tzw. koaktywatorów bądź korepresorów do kompleksu DNA z czynnikiem transkrypcyjnym • Wzmacnianie bądź osłabianie oddziaływań pomiędzy DNA i histonami czyniąc DNA bardziej dostępnym na potrzeby procesu transkrypcji
Miejsca wiązania czynników transkrypcyjnych • Wielkoskalowe sposoby oznaczania Metoda doświadczalna - mikromacierze ChIP-on-chip: • Możliwość badania jedynie określonych fragmentów genomu uzależnionych od sekwencji sond • Dane wymagają bardzo skomplikowanego preprocesingu • Bardzo wysoki koszt Metody obliczeniowe – macierze wag pozycji (PWM) • Duża liczba fałszywie dodatnich wyników • Problemy z oszacowaniem parametrów analizy • Niski koszt (dostęp do bazy danych motywów) Obecność miejsca wiązania danego czynnika transkrypcyjnego nie jest jednoznaczne z tym, iż wpływa on na ekspresje sąsiadującego genu!
Miejsca wiązania czynników transkrypcyjnych • Konstrukcja macierzy wag pozycji (PWM) Czynniki transkrypcyjne wiążą się z obszarami sekwencji o niejednoznacznie określonej budowie nukleotydowej budując wiązania o różnej sile uzależnionej od jakości dopasowania. n GTATAAAAAGCGG CTATAAAAGGCCC GTATAAAGGGGCG GTATATAAGCGCG CTATAAAGGGGCC GTATAAAGGCGGG N sekwencja TATA-box skala logarytmiczna
Miejsca wiązania czynników transkrypcyjnych • Wykorzystanie macierzy wag pozycji Badanie obecności miejsc wiążących na podstawie PWM S = ?? PWM ATGCTGATGCTAGCTAGCGATCACTACTAGCTACGGATGCTAGCTACTAGCTACGT n pm/pb - prawdopodobieństwo występowania nukleotydu si na pozycji i wynikające z modelu/tła(obszaru badanej sekwencji) • Podstawowe problemy: • Problem niezaobserwowanych nukleotydów • Liczba motywów zależna od składu zasad badanej sekwencji
Miejsca wiązania czynników transkrypcyjnych • Wyznaczanie miary dopasowania N – liczba modeli użytych do stworzenia PWM ε – „pseudo zliczenie” (0.01) wm – ilość zliczeń dla nukleotydu si w PWM określone przez procentowy skład GC genomu/fragmentu badanej sekwencji Miary dopasowania motywu wymagają normalizacji tak aby możliwe było stworzenie jednej reguły określającej jej znamienność dla wszystkich motywów • Motywy sekwencyjne maja różną długość (n) • Liczba motywów użytych do stworzenia macierzy jest inna (N) Minimalna wartość miary dopasowania określająca znamienność biologiczną jest kompromisem miedzy czułością a specyficznością metody
Miejsca wiązania czynników transkrypcyjnych Implementacje metod: Sieci neuronowe Modele nieparametryczne Łańcuchy Markova Dostępne metody w większości oferowane są na zasadzie tzw. chmur obliczeniowych (cloud computing) z wieloma ograniczeniami odnośnie sposobu prezentacji wyników i rozmiaru danych wejściowych. Większość z nich jest zbyt skomplikowane aby możliwe było ich wykorzystanie do globalnej analizy podczas gdy ich skuteczność nieraz nie jest większa od przedstawionego podejścia.
Implementacja metody >NF-kappaB MA0061.1 A [ 0 0 1 25 19 7 1 2 2 0 ] C [ 0 000 13 1 2 17 35 36 ] G [38 38 37 13 1 3 2 0 00 ] T [ 0 000 5 27 33 19 1 2 ] format Jaspar format GeneBank Results table format Fasta
Rozkład ilości TFBS • Założenia • Zbadano występowanie czynników transkrypcyjnych w obszarach promotorowych 22 tysięcy ludzkich genów sięgających 5 tysięcy nukleotydów od miejsca startu transkrypcji + sekwencje odpowiadających im genów. • Użyto 75 motywów sekwencyjnych w formacie PWM odpowiedzialnych za interakcje z czynnikami transkrypcyjnymi • Rozkład występowania przedstawiono za pomocą ilości motywów występujących od danej pozycji badanej sekwencji 1 2 3 4 5 6 7 8 9 10 Liczba wystąpień motywów na danej pozycji może być opisana rozkładem: • Normalnym • Chi-kwardat • F Snedecora • Poissona • Gumbela 4 4444 3 33 2 1 Sekwencje genów maja różną długość konieczne jest zatem uniezależnienie wyników od ilości sekwencji na danej pozycji
Rozkład ilości TFBS • Korelacja pomiędzy liczbą motywów a składem GC rs=-0.75 p < 10-250
Rozkład ilości TFBS • Korelacja pomiędzy składem GC a długością motywu PWM rs=0.13 p < 2.62
Podsumowanie Liczba TFBS zależy bardzo silnie od stosunku zasad AT/GC badanej sekwencji. Klasyczne metody oparte na korekcji prawdopodobieństwa wystąpień w oparciu o skład GC są nieskuteczne dla obszarów promotora do 1000 par zasad ze względu na gwałtowną zmianę stosunku nukleotydów AT/GC L = 0-42% H1 = 42-47% H2 = 47-52% H3 = 52-100% Miejsca wiązania czynników transkrypcyjnych występują stosunkowo często w genomie ze względu na ich niską specyficzność jednak najrzadziej w okolicy genów za których regulacje są odpowiedzialne. (Zoubak et al. 1996)
Implementacja metody • Rola