1 / 28

Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej

Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej. Paweł Kupis Jacek Mańdziuk. Biologiczna geneza problemu. białko ( polipeptyd ) polimer liniowy aminokwasowy monomery – aminokwasy 20 rodzajów aminokwasów pierwszorzędowa struktura protein

wyndham
Download Presentation

Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Porównywanie sekwencji białkowychz wykorzystaniem metodyewolucyjno-progresywnej Paweł Kupis Jacek Mańdziuk

  2. Biologiczna geneza problemu • białko (polipeptyd) • polimer liniowy aminokwasowy • monomery – aminokwasy • 20 rodzajów aminokwasów • pierwszorzędowa struktura protein • sekwencjabiałkowa • kolejność aminokwasów • polaryzacja (kierunek czytania sekwencji)

  3. Biologiczna geneza problemu • przykład • HBA_HUMAN(prefix ludzkiej hemoblobiny) VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

  4. Porównywanie sekwencji • problem • trudno wyznaczyć kryterium porównywania • pomysł • ilość identycznych pozycji w sekwencjach o identycznej długości • rozwiązanie • uliniowienie sekwencji

  5. Uliniowienie sekwencji • uliniowienie sekwencji (ang. sequence alignment) • warunki • n-ty wiersza po usunięciu znaków ‘-‘daje n-tą sekwencję • długość wszystkich wierszy uliniowienia jest jednakowa • żadna kolumna uliniowienia nie zawiera tylko znaków ‘-‘ CA-GCUUAUCGCUUAG AAUGCAU-UGACG--G

  6. Uliniowienie wielu sekwencji • MSA (ang. multiple sequence alignment) • warunki • n-ty wiersza po usunięciu znaków ‘-‘daje n-tą sekwencję • długość wszystkich wierszy uliniowienia jest jednakowa • żadna kolumna uliniowienia nie zawiera tylko znaków ‘-‘ • takie same jak dla uliniwienia dwóch sekwencji LGB2_LUPLU VPQ--NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSK-GVADAHFPV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKG--HHEAELKPLAQS---HATKHKIPIKYLEF GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMD--DTEKMSMKLRDLSGKHAKSFQVDPQYFKV HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFATLSEL---HCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLD--NLKGTFAALSEL---HCDKLHVDPENFRL HBA_HUMAN -----GSAQVKGHGKKVADALTNAVAHVD--DMPNALSALSDL---HAHKLRVDPVNFKL HBA_HORSE -----GSAQVKAHGKKVGDALTLAVGHLD--DLPGALSNLSDL---HAHKLRVDPVNFKL . .:: *. : . * : * . : : .

  7. Metoda ewolucyjno-progresywna • metoda 2-etapowa • etap 1. - ewolucyjny • dopasowywanie kolumn całkowicie identycznych • znajdowanie optymalnego tzw. „wstępnego uliniowienia” • etap wykonywany rekurencyjnie • etap 2. - progresywny • uliniowienie obszarów między kolumnamizidentyfikowanymi w etapie 1.

  8. Etap ewolucyjny dopasowywanie kolumn całkowicie identycznych, przykład: wszystkie możliwe kolumny zgodne

  9. Etap ewolucyjny blok kolumn identycznych • kolumny tworzą blok jeśli we wszystkich wierszach różnica w indeksach wynosi jeden (większy indeks – mniejszy indeks) • blok może mieć dowolną długość • w szczególności pojedynczą kolumną również można traktować jako blok

  10. Etap ewolucyjny wstępne uliniowienie • szereg bloków spełniający następujące warunki • dowolny indeks może wystąpić w wierszu tylko raz • w każdym wierszu indeksy są w porządku rosnącym • powyższe warunki gwarantują, że na podstawie wstępnego uliniowienia można zbudować pełne uliniowienie (zachowując ustalone kolumny identyczne)

  11. Etap ewolucyjny kolumny szkodliwe • intuicyjnie możemy określić taką kolumnę jako łączącą „zbyt” odległe części różnych sekwencji • kolumna taka, uniemożliwia bardzo często lepsze dopasowanie innych kolumn identycznych

  12. Etap ewolucyjny • bliskie optymalnemu uliniowienie z wymuszeniem uzgodnienia kolumny symboli T • uliniowienie tych samych sekwencji bez uzgadnianie symboli T

  13. Etap ewolucyjny • zadania algorytmu ewolucyjnego • znalezienie optymalnego wstępnego uliniowienia • budowa populacji startowej • czas budowy musi być „kontrolowalny” • wprowadzenie to populacji startowej reprezentatywnego podzbioru możliwych kolumn identycznych • użycie wszystkich (z wszystkich części sekwencji) symboli z sekwencji • unikanie szkodliwych kolumn • ew. późniejsza ich eliminacja

  14. Budowa populacji startowej • metodę charakteryzują dwa podstawowe parametry • cmax – górny limit (w przybliżeniu) ilości zidentyfikowanych kolumn identycznych • w% – szerokość tzw. „okna przeszukiwania” • symbole tworzące kolumnę identyczną nie mogą pochodzić z dowolnych części sekwencji • każdy symbol pochodzi z aktywnego okna przeszukiwania danej sekwencji

  15. Budowa populacji startowej • względna długość okna przeszukiwania (w stosunku do dł. sekwencji) jest taka sama dla wszystkich sekwencji • analogicznie względna pozycja środka okna (względem początku sekwencji) • z każdego okna, losowo, wybierany jest jeden symbol • jeśli wszystkie symbole są identyczne, tworzona jest kolumna identyczna • nie jest sprawdzana unikalność kolumny • czynność jest wykonywana razy dla każdego symbolu (okna szerokości jednego symbolu) wyróżnionej sekwencji • gdzie m – dł. wyróżnionej sekwencji (np. najkrótszej)

  16. Budowa populacji startowej • zbieranie informacji (tworzenie wstępnych uliniowień) A – zbiór kolumn identycznych (porządek odnajdywania) P – populacja startowa, początkowo pusta cp – nominalny rozmiar populacji startowej

  17. Algorytm ewolucyjny • populacja startowa (cmax=4000, w%=0.04) • cp = (ma * n) / 10, ma – śr. dł. sekwencji, n – ilość sekwencji • cp >= 100 oraz cp <= 400 • tylko jeden operator genetyczny - krzyżowanie

  18. Algorytm ewolucyjny • krzyżowanie • jednopunktowe • losowe punkty cięcia (możliwe przed pierwszym i za ostatnim blokiem) • punkt cięcia nigdy nie rozdziela bloku • po wymianie informacji sprawdzana jest możliwość złączenia bloków sąsiadujących z punktem cięcia • „lepszy” z potomków musi być lepszy od obojga rodziców • domyślne prawdopodobieństwo krzyżowania = 0.4

  19. Algorytm ewolucyjny • funkcja przystosowaniacol(p) – ilość kolumn identycznych w osobniku plenmin(p) – minimalna długość uliniowienia powstałego na podstawie uliniowienia wstępnego reprezentowanego przez osobnika pα – wykładnik określający istotność karania na powstawanie nadmiernie długich uliniowień (=20)

  20. Algorytm ewolucyjny • jeśli i-ty blok wstępnego uliniowienia p oznaczymy jako bito funkcja lenmin(p) wyraża się wzorem

  21. Algorytm ewolucyjny • warunki stopu • przystosowanie najlepszego osobnika nie zmieniło się od 40 generacji • osiągnięto limit 1000 generacji • wywołania rekurencyjne dla obszarów między blokami (w najlepszym z osobników) • koniec rekurencji • alg. ewolucyjny nie znalazł żadnej kolumny identycznej • minimalna odległość między danymi blokami jest <= 20

  22. Algorytm progresywny • uruchamiany dla obszarów między blokami zidentyfikowanymi przez alg. ewolucyjny • implementacja zbliżona do ClustalW • drzewo filogenetyczne budowane metodą neighbor-joining (z ukorzenianiem metoda mid-point rooting)

  23. Algorytm progresywny • uliniawianie par metodą Myersa-Millera • przystosowanie do uliniawiania uliniowień • przystosowanie do afinicznej kary za wprowadzane przerwy • kara k(w) = GOP + w*GEP, w – dł. Wprowadzonej przerwy • kary za wprowadzanie przerw zależne od pozycji w sekwencji (funkcyjny opis parametrów kary afinicznej) • stosowanie macierzy substytucji (automatyczny dobór w zależności do odległości sekwencji w drzewie filogenetycznym)

  24. Testy • Na podstawie referencyjnych baz BAliBASEbazy udostępniają zarówno testowe zestawy sekwencji, jak i gotowe uliniowienia tych zestawów

  25. Ocena uliniowienia • miara SPS (Sum-of-Pair Score), N - ilość sekwencji, n - długość uliniowienia danej pary sekwencji, m - ilość przerw w uliniowieniu pary sekwencji • miara CS (Column Score) • ilość kolumn identycznych w stosunku do dł. uliniowienia • wszystkie wyniki podawane są jako średni stosunek miar w odniesieniu do rezultatów dla uliniowień z bazy referencyjnej

  26. Wyniki

  27. Wyniki

  28. Koniec • Pytania? • Sugestie Dziękuje za uwagę

More Related