250 likes | 639 Views
Lyginamosios genomikos metodai ir algoritmai. Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robe rtas.damasevicius@(at)ktu.lt. Genomika. G enomi ka y r a rūšies viso genomo molekulinė analizė Genolapio sudarymas
E N D
Lyginamosios genomikos metodai ir algoritmai Prof. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robertas.damasevicius@(at)ktu.lt
Genomika • Genomikayra rūšies viso genomo molekulinė analizė • Genolapio sudarymas • Sekvenavimas (nukleotidų sekos nustatymas) • Struktūrinė genomikaprasideda genolapio sudarymu ir baigiasi pilnu genomo sekvenavimu • Funkcinė genomikatiria, kaip genų sąveikos skuria organizmo požymius • Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti genetinių sekų reikšmę organizmo funkcionavimui
Lyginamosios genomikos metodai ir algoritmai • Lyginamoji genomika yra skirtingų organizmų rūšių genetinių duomenų palyginimas siekiant suprasti jų evoliuciją, genų funkcijas, paveldimas ligas ir pan. • Lyginama: • Genų vieta chromosomoje. • Genų struktūra (įvairių genų komponentų skaičius ir ilgis). • Genų charakteristikos (kodonų naudojimas ir pan.). • Lyginamosios genomikos uždaviniai yra: • Genų suradimas (identifikavimas). • Genų motyvų suradimas Bioinformatika (B110M100)
Genų identifikavimo metodai (1) • Genų identifikavimas: bioinformatikos šaka apimanti algoritmų taikymą nustatant biologinę funkciją turinčias biomolekulinių sekų (paprastai DNR) fragmentus (genus). • Išoriniai metodai. • Turint baltymo seką galima atlikti atvirkštinį transliavimą ir nustatyti DNRsekų-kandidačių aibę. • Turint sekas-kandidates atliekama paieška tiriamame genome ir nustatomi visiški arba daliniai sutapimai. • Didelis panašumas reiškia, kad genomo fragmentas yra genas. • Trūkumas: reikalauja labai daug eksperimentinių duomenų, todėl nėra efektyvūs Bioinformatika (B110M100)
Genų identifikavimo metodai (2) • Metodai „nuo pradžios“ (Ab initio). • Genomo DNR sekoje atliekama paieška ieškant specialių baltymus koduojančių genų pradžios ir pabaigos simbolių (fragmentų). • Rezultatų teisingumą dar reikia patvirtinti išoriniais metodais. • GENESCAN, Z-kreivė Bioinformatika (B110M100) 5
GENESCAN algoritmas • Genų numatymui naudoja Furjė transformaciją. • N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj, j=1,2, ..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos pozicijoje j. • Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius simboliui a, t.y.: Ua(xj) = 1, jei xj = a Ua(xj) = 0, jei xj ≠ a • Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos funkcijos UA, UT, UG, UC. • Jų pagalba seka transformuojama į 4 skirtingas dvejetaines sekas Bioinformatika (B110M100)
DNR sekos transformavimas į dvejetaines sekas Bioinformatika (B110M100)
Sekų analizė naudojant Furjė metodus(1) • Nagrinėjama koreliacija tarp simbolių, gaunamas DNR sekos spektras. • Bendras DNR sekos spektras yra atskirų dvejetainių sekų spektrų suma: kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T). Bioinformatika (B110M100)
Sekų analizė naudojant Furjė metodus(2) Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio dažnį ρα: Galia P : Bioinformatika (B110M100) 9
DNR sekos spektro pavyzdys Bioinformatika (B110M100)
GENESCAN pavyzdys • http://www.imtech.res.in/raghava/ftgpred
Z-kreivės metodas • Z-kreivė: trimatė kreivė, kuri unikaliai atvaizduoja DNR seką. • Turint Z-kreivę galima rekonstruoti pradinę DNR seką. • Z-kreivės metodas bioinformatikoje yra naudojamas genomo analizei ir genų numatymui. • Z-kreivės pranašumai: • galima lengvai pastebėti DNR sekos šablonus. • metodas yra paprastas ir labai jautrus. Bioinformatika (B110M100)
Z-kreivė • Z-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių koordinatės xn, ynir zn (n = 0, 1, 2, ... , N, kur N yra analizuojamos DNR sekos ilgis) yra apskaičiuojamos naudojant DNR sekos Z-transformaciją: • kur: An, Cn, Gnir Tn yra A, C, G ir T simbolių skaičius nuo i-ojo iki n-tojo sekos simbolio. • Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2, ..., PN tiesiomis linijomis. Bioinformatika (B110M100)
Z-kreivės braižymas • Z-kreivė yra brėžiama trimatėje erdvėje, kurios ašys turi tokią reikšmė: • x-ašis rodo purino/pirimidino (R/Y) bazių pasiskirstymą sekoje; • y-ašis rodo amino/keto (M/K) bazių pasiskirstymą sekoje; • z-ašis rodo stiprios vandenilinės jungties/silpnos vandenilinės jungties (S/W) bazių pasiskirstymą sekoje. Bioinformatika (B110M100)
Genų suradimo algoritmas naudojant Z-kreivę 1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...; 2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3. 2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pitrimatėje erdvėje Vi, i = 1, 2, 3. 3) Pi koordinatės yra apskaičiuojamos naudojant DNR sekos Z-transformaciją: 4) DNR sekos fragmentą galima atvaizduojamas vektoriumi 9-matėje erdvėje V. Tegul 9-matė erdvė V yra poerdvių V1, V2ir V3 suma, kur jos koordinatės u1, u2, ..., u9 yra apibrėžiamos taip: Bioinformatika (B110M100)
Z-kreivė: pavyzdys Bioinformatika (B110M100)
Z-kreivė: demonstracija • http://tubic.tju.edu.cn/zcurve/
Z-kreivės metodo įvertinimas • Pagrindinė genų numatymo naudojant Z-kreivę idėja: koduojantys ir nekoduojantys sekos fragmentai bus išsidėstę skirtingose 9-matės erdvės V vietose. • 2-matės V erdvės projekcijai gauti galima naudoti daugiamačių skalių (MDS) metodą. • Pranašumai: • labai paprastas ir lengvas naudoti DNR vizualizavimo metodas leidžiantis greitai pamatyti pagrindines DNR sekos globalias ir lokalias charakteristikas; • galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives. Bioinformatika (B110M100)
Motyvai • Sekos motyvas yra nukleotidų arba amino rūgščių sekos šablonas, kuris yra dažnai aptinkamas ir turi biologinę prasmę. • Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą turi būti pristatomas baltymas po jo sintezės, arba įtakoja DNR spiralės formą. • Motyvų aprašymo susitarimai: • Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę. • Simbolių eilutė aprašo atitinkamų amino rūgščių seką. • Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių. • Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus apskliaustą. Bioinformatika (B110M100)
Sekų motyvai • Genetinė seka, turinti tam tikrą funkciją, yra vadinama sekos elementu arba sekos motyvu • Specifiniai aminorūgščių motyvai, atliekantys baltymuose specializuotas funkcijas • Pvz., asparaginas–X–serinas (kur X yra bet kuri aminorūgštis) yra eukariotų baltymų glikozilinimo vieta • Prosite duomenų bazėje yra kaupiamos žinios apie aminorūgščių motyvus, turinčius funkcinę reikšmę
Motyvo pavyzdys • Motyvo pavyzdys (aprašo N-glikosilacijos vietą): N{P}[ST]{P} čia: N = Asn, P = Pro, S = Ser, T = Thr; {X} – reiškia bet kurią amino rūgštį išskyrus X; [XY] – reiškia X arba Y. Bioinformatika (B110M100)
PROSITE notacija • Naudoja: • IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir • papildomą konkatenacijos simbolį `-`, kuris dažnai yra praleidžiamas tarp šablono abėcėlės raidžių. • Be to dar naudojami tokie simboliai: • x – bet kokia amino rūgštis; • { } - reiškia bet kurią amino rūgštį išskyrus apskliaustą; • e(m) – reiškia e amino rūgštį pakartotą m kartų; • e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur m <= k <= n; Bioinformatika (B110M100)
PROSITE notacija: pavyzdys • PROSITE šablonas CBD_FUNGAL (prieigos kodas PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1): C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C Bioinformatika (B110M100)
Motyvo suradimo metodai • Sekos profilio analizė: pirmiausiai surandamas globalus daugybinis sekų sugretinimas. Jame izoliuojami labai konservatyvūs regionai, iš kurių konstruojamos profilio matricos. Profilio matricos yra naudojamos ieškoti motyvų kitose užklausos sekose. • Blokų analizė: motyvų paieška apsiriboja spragų neturinčiuose sugretinimo regionuose (blokuose), kurie gaunami atlikus daugybinį sekų sugretinimą. • Statistinė šablonų paieška naudojant tikėtino maksimizavimo (expectation-maximization) algoritmą. Bioinformatika (B110M100)
Sekų motyvai, nustatomi kompiuterinės analizės metu R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas