1 / 29

Zastosowania sieci neuronowych w bioinformatyce

Zastosowania sieci neuronowych w bioinformatyce. Autor: Rafał Grodzicki. Zastosowania sieci neuronowych w bioinformatyce. Predykcja struktury białek Struktura 2 i 3 - rzędowa Mapy i wektory kontaktów Badanie ekspresji genów (mikromacierze DNA).

burton
Download Presentation

Zastosowania sieci neuronowych w bioinformatyce

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zastosowania sieci neuronowych w bioinformatyce Autor: Rafał Grodzicki

  2. Zastosowania sieci neuronowych w bioinformatyce • Predykcja struktury białek • Struktura 2 i 3 - rzędowa • Mapy i wektory kontaktów • Badanie ekspresji genów (mikromacierze DNA)

  3. Predykcja struktury białek – podstawy biologiczne • Struktura 1-rzędowa • Sekwencja aminokwasów – słowo nad 20-elementowym alfabetem: {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} • Typowa długość: 100 – 1500 aminokwasów AYIAKQRQISFVKSHFSRQLEERLGLIEV…

  4. Predykcja struktury białek – podstawy biologiczne • Struktura 2-rzędowa • Polipeptyd spontanicznie zwija się w regularne struktury: α helisastruktura β

  5. Predykcja struktury białek – podstawy biologiczne • Struktura 3-rzędowa • Wzajemne przestrzenne ułożenie struktur 2-rzędowych

  6. Predykcja struktury białek – biologiczna istotność problemu • Struktura determinuje funkcję białka Struktura 1-rzędowa => => Struktura 3-rzędowa => Funkcja białka • Kilkadziesiąt milionów znanych sekwencji DNA • Kilkadziesiąt tysięcy białek o znanej strukturze 3-rzędowej • Duży koszt eksperymentalnego określania struktury 3-rzędowej

  7. Predykcja struktury białek – dane • PDB (Protein Data Bank – http://www.pdb.org) • szczegółowe informacje na temat struktury 1 i 3-rzędowej ok. 37500 białek (dane na styczeń 2007) • reprezentatywne podzbiory białek z bazy PDB (tzw. pdb_select)

  8. Predykcja struktury 2-rzędowej – dane • PDB nie zawiera jawnych danych na temat struktury 2-rzędowej • DSSP • Wolfgang Kabsch, Chris Sander • Uzyskiwanie informacji o strukturze 2-rzędowej na podstawie danych z PDB • 7 klas: H, G, I, E, B, T, S

  9. Predykcja struktury 2-rzędowej – perceptron • Wejście: • Informacja na temat w sąsiednich aminokwasów (w nieparzysta) – tzw. okno wejściowe • Kodowanie ortogonalne aminokwasów: • wektor o wymiarze 20 • na jednej pozycji 1, a na pozostałych 0 • (20*w) elementów wejściowych

  10. Predykcja struktury 2-rzędowej – perceptron • Wyjście: • 3 neurony wyjściowe odpowiadające poszczególnym klasom struktury 2-rzędowej (wartość rzeczywista z przedziału [0,1]): • H – α helisa • E – struktura β • L – pętla łącząca • Wynik predykcji: klasa odpowiadająca neuronowi wyjściowemu o maksymalnej wartości • Predykcja dla centralnego aminokwasu z okna wejściowego

  11. Predykcja struktury 2-rzędowej – 2-poziomowa sieć neuronowa • 1. poziom: • v sieci neuronowych (v nieparzysta) dla sąsiednich okien wejściowych – architektura identyczna jak w poprzednim podejściu …AQSVPYGISQIKAP… …AQSVPYGISQIKAP… …AQSVPYGISQIKAP…

  12. Predykcja struktury 2-rzędowej – 2-poziomowa sieć neuronowa • 2. poziom: • Jednokierunkowa sieć neuronowa o wejściach będących wyjściami sieci neuronowych z 1. poziomu • Wyjście – identyczne jak w przypadku sieci neuronowych z 1. poziomu • Predykcja dla centralnego aminokwasu z okna wejściowego

  13. Predykcja struktury 2-rzędowej – informacja ewolucyjna • Pojedyncza sekwencja zastąpiona uliniowieniem spokrewnionych (homologicznych) sekwencji • Profil • Wartości binarne na wejściu sieci zastąpione wartościami rzeczywistymi z przedziału [0,1] • Poprawa jakości predykcji (z 65% do >70%)

  14. Predykcja struktury 2-rzędowej – bi-rekurencyjna sieć neuronowa

  15. Predykcja struktury 2-rzędowej – bi-rekurencyjna sieć neuronowa • Obliczenia bi-rekurencyjnej sieci neuronowej: gdzie • Ot – wynik predykcji dla t-tego aminokwasu • Ft – lewy kontekst (forward) • Bt – prawy kontekst (backward) • N – długość polipeptydu (liczba aminokwasów)

  16. Predykcja struktury 2-rzędowej – bi-rekurencyjna sieć neuronowa • 824 sekwencje (2/3 – dane uczące, 1/3 – testowe) • Najlepszy wynik: ok. 76%

  17. Predykcja map i wektorów kontaktów • Mapa kontaktów • N – liczba aminokwasów w polipeptydzie • Macierz S o wymiarze N x N • S[i,j] = 1, jeśli i-ty i j-ty aminokwas są w kontakcie • S[i,j] = 0, w p.p. • i-ty i j-ty aminokwas są w kontakcie • Odległość pomiędzy atomami węgla i-tego i j-tego aminokwasu mniejsza od ustalonej wartości • Minimalna odległość pomiędzy dwoma dowolnymi atomami i-tego i j-tego aminokwasu mniejsza od ustalonej wartości

  18. Predykcja map i wektorów kontaktów • Wektor kontaktów • N – liczba aminokwasów w polipeptydzie • Wektor V o wymiarze N • V[i] = liczba aminokwasów, z którymi jest w kontakcie i-ty aminokwas • Definicja na podstawie mapy kontaktów

  19. Predykcja map i wektorów kontaktów • Wektory kontaktów • Metody analogiczne jak w przypadku predykcji struktury 2-rzędwej białek • Dla każdego aminokwasu przewidywana jest liczba aminokwasów będących z nim w kontakcie • Mapy kontaktów • Rekurencyjne sieci neuronowe

  20. Predykcja map kontaktów – rekurencyjna sieć neuronowa • Uogólnienie bi-rekurencyjnej sieci neuronowej na przypadek 2-wymiarowy • Obliczenia rekurencyjnej sieci neuronowej:

  21. Predykcja struktury 3-rzędowej • Problem otwarty (brak dobrych predyktorów struktury 3-rzędowej białek) • Możliwe rozwiązanie: • 1. etap – predykcja: • struktury 2-rzędowej • map i wektorów kontaktów • parametrów biochemicznych (np. hydrofobowość) • 2. etap – predykcja struktury 3-rzędowej z wykorzystaniem wyników 1. etapu

  22. Badanie ekspresji genów – mikromacierze DNA • Ekspresja genów • W tkance zdrowej i chorej • Zmiana w czasie • Różnica między gatunkami • Mikromacierze DNA • Pojedyncza mikromacierz – pojedynczy pomiar ekspresji genów w określonych warunkach • Dane z wielu mikromacierzy – profil • Wiersze – geny • Kolumny – wartości ekspresji dla różnych mikromacierzy

  23. Badanie ekspresji genów – przykładowy profil

  24. Badanie ekspresji genów – SOM • Profile ekspresji genów – duża ilość danych • Konieczność uporządkowania, klasteryzacji • Self Organizing Map (Kohonen, 1990) • Zalety: • Podział danych na klasy • Tolerancja zaszumionych danych • Wady: • Brak hierarchiczności • Stała liczba klas

  25. Badanie ekspresji genów – SOTA • Self-Organizing Tree Algorithm (Dopazo, Carazo, 1997) • Samoorganizująca sieć neuronowa • Struktura drzewiasta • Dynamiczne generowanie struktury w procesie uczenia • Dowolna liczba klas

  26. Badanie ekspresji genów – SOTA • Węzły – kolumny profilu ekspresji genów • Uczenie: • Stan początkowy: 2 liście połączone z węzłem wewnętrznym • Dla kolejnych danych wejściowych: • Wybór węzła zwycięskiego (spośród terminali) • Modyfikacje sąsiednich węzłów • Dwa rodzaje sąsiedztwa węzłów • Lokalne – obaj potomkowie rodzica są liśćmi • Ograniczające (restrictive) • Podział węzła • Wygenerowanie dwóch identycznych kopii – węzły potomne

  27. Badanie ekspresji genów – SOTA

  28. Badanie ekspresji genów – SOTA

  29. Bibliografia • Paolo Frasconi, Ron Shamir – „Artificial Intelligence and Heuristic Methods in Bioinformatics”, NATO Science Series, 2003 • P. Baldi, S. Brunak – „Exploiting the past and the future in protein secondary structure prediction”, Bioinformatics, 1999 • G. Pollastri, P. Baldi – „Prediction of contact maps by GIOHMMs and recurrent neural networks using lateral propagation from all four cardinal corners”, Bioinformatics, 2002 • Javier Herrero, Alfonso Valencia, Joaquin Dopazo – „A hierarchical unsupervised growing neural network for clustering gene expression paterns”, Bioinformatics, 2001 • A.D. Baxevanis, B.F.F. Quellette – „Bioinformatyka”, PWN, 2004 • P.C. Turner, A.G. McLennan, A.D. Bates, M.R.H. White – „Biologia molekularna”, PWN, 2005

More Related