1 / 19

The distribution of sequence motifs in human genes and their promoters

Instytut Automatyki Politechnika Śląska Gliwice. The distribution of sequence motifs in human genes and their promoters. Gliwice 2010. Regulacja ekspresji genów. Zależności pomiędzy poziomem mRNA i białek. N=2468 R =0.58 . 2. N=423 R =0.47. 2. drożdże. bakterie e. coli. N=511

nairi
Download Presentation

The distribution of sequence motifs in human genes and their promoters

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Instytut Automatyki Politechnika Śląska Gliwice The distribution of sequence motifs in human genes and their promoters Gliwice 2010

  2. Regulacja ekspresji genów • Zależności pomiędzy poziomem mRNA i białek N=2468 R =0.58 2 N=423 R =0.47 2 drożdże bakterie e. coli N=511 R =0.22 2 człowiek (Abreu et al. 2009) Global signatures of protein and mRNA expression levels Mol. BioSyst., 2009, 5, 1512 – 1526 Raquel de SousaAbreu

  3. Centralny dogmat biologii molekularnej Regulacja ekspresji genów Transkrypcja i translacja są wieloetapowymi procesami regulowanymi na wiele sposobów. TF RBP +/- +/- DNA RNA Białko transkrypcja translacja - miRNA/siRNA Wszystkie 3 mechanizmy bazują na rozpoznawaniu określonych wzorców w sekwencji nukleotydowej

  4. Czynniki transkrypcyjne • Obszar promotora genu Długość obszaru promotora nie jest jednoznacznie określona TF TF DNA TFBS TFBS TFBS TFBS sekwencja genu obszar promotora Białka z rodziny czynników transkrypcyjnych wiążą się z obszarami sekwencji o długości 5-20+ nukleotydów o niejednoznaczne określonej budowie

  5. Czynniki transkrypcyjne • Mechanizmy działania • Stabilizacja bądź blokowanie wiązania polimerazy do DNA • Przyłączanie innych białek tzw. koaktywatorów bądź korepresorów do kompleksu DNA z czynnikiem transkrypcyjnym • Wzmacnianie bądź osłabianie oddziaływań pomiędzy DNA i histonami czyniąc DNA bardziej dostępnym na potrzeby procesu transkrypcji

  6. Miejsca wiązania czynników transkrypcyjnych • Wielkoskalowe sposoby oznaczania Metoda doświadczalna - mikromacierze ChIP-on-chip: • Możliwość badania jedynie określonych fragmentów genomu uzależnionych od sekwencji sond • Dane wymagają bardzo skomplikowanego preprocesingu • Bardzo wysoki koszt Metody obliczeniowe – macierze wag pozycji (PWM) • Duża liczba fałszywie dodatnich wyników • Problemy z oszacowaniem parametrów analizy • Niski koszt (dostęp do bazy danych motywów) Obecność miejsca wiązania danego czynnika transkrypcyjnego nie jest jednoznaczne z tym, iż wpływa on na ekspresje sąsiadującego genu!

  7. Miejsca wiązania czynników transkrypcyjnych • Konstrukcja macierzy wag pozycji (PWM) Czynniki transkrypcyjne wiążą się z obszarami sekwencji o niejednoznacznie określonej budowie nukleotydowej budując wiązania o różnej sile uzależnionej od jakości dopasowania. n GTATAAAAAGCGG CTATAAAAGGCCC GTATAAAGGGGCG GTATATAAGCGCG CTATAAAGGGGCC GTATAAAGGCGGG N sekwencja TATA-box skala logarytmiczna

  8. Miejsca wiązania czynników transkrypcyjnych • Wykorzystanie macierzy wag pozycji Badanie obecności miejsc wiążących na podstawie PWM S = ?? PWM ATGCTGATGCTAGCTAGCGATCACTACTAGCTACGGATGCTAGCTACTAGCTACGT n pm/pb - prawdopodobieństwo występowania nukleotydu si na pozycji i wynikające z modelu/tła(obszaru badanej sekwencji) • Podstawowe problemy: • Problem niezaobserwowanych nukleotydów • Liczba motywów zależna od składu zasad badanej sekwencji

  9. Miejsca wiązania czynników transkrypcyjnych • Wyznaczanie miary dopasowania N – liczba modeli użytych do stworzenia PWM ε – „pseudo zliczenie” (0.01) wm – ilość zliczeń dla nukleotydu si w PWM określone przez procentowy skład GC genomu/fragmentu badanej sekwencji Miary dopasowania motywu wymagają normalizacji tak aby możliwe było stworzenie jednej reguły określającej jej znamienność dla wszystkich motywów • Motywy sekwencyjne maja różną długość (n) • Liczba motywów użytych do stworzenia macierzy jest inna (N) Minimalna wartość miary dopasowania określająca znamienność biologiczną jest kompromisem miedzy czułością a specyficznością metody

  10. Miejsca wiązania czynników transkrypcyjnych Implementacje metod: Sieci neuronowe Modele nieparametryczne Łańcuchy Markova Dostępne metody w większości oferowane są na zasadzie tzw. chmur obliczeniowych (cloud computing) z wieloma ograniczeniami odnośnie sposobu prezentacji wyników i rozmiaru danych wejściowych. Większość z nich jest zbyt skomplikowane aby możliwe było ich wykorzystanie do globalnej analizy podczas gdy ich skuteczność nieraz nie jest większa od przedstawionego podejścia.

  11. Implementacja metody >NF-kappaB MA0061.1 A [ 0 0 1 25 19 7 1 2 2 0 ] C [ 0 000 13 1 2 17 35 36 ] G [38 38 37 13 1 3 2 0 00 ] T [ 0 000 5 27 33 19 1 2 ] format Jaspar format GeneBank Results table format Fasta

  12. Rozkład ilości TFBS • Założenia • Zbadano występowanie czynników transkrypcyjnych w obszarach promotorowych 22 tysięcy ludzkich genów sięgających 5 tysięcy nukleotydów od miejsca startu transkrypcji + sekwencje odpowiadających im genów. • Użyto 75 motywów sekwencyjnych w formacie PWM odpowiedzialnych za interakcje z czynnikami transkrypcyjnymi • Rozkład występowania przedstawiono za pomocą ilości motywów występujących od danej pozycji badanej sekwencji 1 2 3 4 5 6 7 8 9 10 Liczba wystąpień motywów na danej pozycji może być opisana rozkładem: • Normalnym • Chi-kwardat • F Snedecora • Poissona • Gumbela 4 4444 3 33 2 1 Sekwencje genów maja różną długość konieczne jest zatem uniezależnienie wyników od ilości sekwencji na danej pozycji

  13. Rozkład ilości TFBS

  14. Rozkład ilości TFBS • Korelacja pomiędzy liczbą motywów a składem GC rs=-0.75 p < 10-250

  15. Rozkład ilości TFBS • Korelacja pomiędzy składem GC a długością motywu PWM rs=0.13 p < 2.62

  16. Skład GC fragmentów sekwencji

  17. Podsumowanie Liczba TFBS zależy bardzo silnie od stosunku zasad AT/GC badanej sekwencji. Klasyczne metody oparte na korekcji prawdopodobieństwa wystąpień w oparciu o skład GC są nieskuteczne dla obszarów promotora do 1000 par zasad ze względu na gwałtowną zmianę stosunku nukleotydów AT/GC L = 0-42% H1 = 42-47% H2 = 47-52% H3 = 52-100% Miejsca wiązania czynników transkrypcyjnych występują stosunkowo często w genomie ze względu na ich niską specyficzność jednak najrzadziej w okolicy genów za których regulacje są odpowiedzialne. (Zoubak et al. 1996)

  18. Dziękuje za uwagę

  19. Implementacja metody • Rola

More Related