770 likes | 907 Views
ENTREZ - Genomes. Map Viewer I. Map Viewer II. Map Viewer IIII. Map Viewer IV. European Bioinformatics Institute (EBI). European Bioinformatics Institute (EBI). Readseq: szekvencia formátum konvertáló. nameless_1. nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178.
E N D
nameless_1 nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178 .. 1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA Szekvencia formátumok I. >nameless_1 457 bp GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGTAGCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAACCTTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACACGACGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGATCGAAAGGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTTTGGGAGATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACCCAACCATACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAGGATACCCGGTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAGTTCCCGCGGGACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGCAGGGTCTCCCCCGGGA FASTA GCG
Szekvencia formátumok II. GenBank EMBL
KERESÉS AZ ADATBNKOKBAN: HASONLÓSÁG Elsődleges DNS vagy fehérje szekvencia összehasonlítása más elsődleges szekvenciákhoz abban a reményben, hogy annak a funkciója ismert a kísérletek szükségessége analogikus gondolkodás ha valamilyen fehérje hasonlít valami ismert funkiójú fehérjéhez, akkor a funkció is hasonló kérdés: mi hordozza a funkciót? fehérje, vagy fehérje rész, hány funkciója van egy fehérjének? globalitás - lokalitás
Illesztés - héttér “For many protein sequences, evolutionary history can be traced back 1-2 billion years” -William Pearson • When we align sequences, we assume that they share a common ancestor • They are then homologous • Protein fold is much more conserved than protein sequence • DNA sequences tend to be less informative than protein sequences
Szekvenciák illesztése • Nagyon sok illesztés, alignment lehetséges. • Két szekvenciát mindig lehet illeszteni • Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése. • Ehhez • az illesztések “jóságát” pontozni kell • Gyakran több illeszkedés is jó, ugyanolyan ponttal
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa Szekvencia 1 Szekvencia 2 taccattaccgtgttaactgaaaggacttaaagact
Globális – lokális TEGNAP VELED VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : ::::: TEGNAP VELED----------V-------OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .::::: TEGNAP-VELED---VOLTAM-------------- Globális TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .::::: TEGNAP VELED ----------------VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: : .::::: TEGNAP----------------VELE-D-VOLTAM Lokális TEGNAP VELED MAGOLTAM :::::::::::: .::::: TEGNAP VELED---VOLTAM TEGNAP VELED ::::::::::: TEGNAP VELED VELE DALOLTAM :::: : .::::: VELE-D-VOLTAM
Pontozás • Szekvenciaszerkesztés: AGGCCTC • Mutációk AGGACTC • Inszerciók AGGGCCTC • Deléciók AGG.CTC Pontozás: Illeszkedés: +m Eltérés: -s Lyuk: -d Pont: F = (# illeszkedés) m - (# eltérés) s – (#lyukak) d
DNSpontozási rendszer actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2 A G C T A1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1 Illik: 1 Nem illik: 0 pont = 5
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa Szekvencia 1 Szekvencia 2 taccattaccgtgttaactgaaaggacttaaagact
DNSpontozási rendszer actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2 Negatívérték bünteti az eltéréseket: A T C G A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5 Illik: 5 Nem illik: 19 Score: 5 x 5 + 19 x (-4) = - 51
A T G C S W R Y K M B V H D N U A 5 4 4 4 4 1 1 4 4 1 4 1 1 1 2 4 T 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5 G 4 4 5 4 1 4 1 4 1 4 1 1 4 1 2 4 C 4 4 4 5 1 4 4 1 4 1 1 1 1 4 2 4 S 4 4 1 1 1 4 2 2 2 2 1 1 3 3 1 4 W 1 1 4 4 4 1 2 2 2 2 3 3 1 1 1 1 R 1 4 1 4 2 2 1 4 2 2 3 1 3 1 1 4 Y 4 1 4 1 2 2 4 1 2 2 1 3 1 3 1 1 K 4 1 1 4 2 2 2 2 1 4 1 3 3 1 1 1 M 1 4 4 1 2 2 2 2 4 1 3 1 1 3 1 4 B 4 1 1 1 1 3 3 1 1 3 1 2 2 2 1 1 V 1 4 1 1 1 3 1 3 3 1 2 1 2 2 1 4 H 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1 D 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1 N 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 U 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Dotplots Illeszkedési Mátrix
5 5 5 5 5 5 5 5 5 5 A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5 Pro Leu 5 5 5 5 5 5 -4 5 5 -4 Pro Leu Dotplots CCTCCTTTGT Pont = 50 CCTCCTTTGT CCTCCTTTGG Pont = 32 CCTCCCTTAG
Protein pontozási rendszer • Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket pici P alifás C kicsi S+S G G I A S V C N SH L D T hidrofób Y M K E Q F W H R pozitív aromás poláris töltött
Fehérjepontozási rendszer • Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket • Pontozó mátrixnak tükröznie kell • a kölcsönös szubsztitúciók valószínűségét • az aminosavak előfordulási valószínűségét • Általánosan használt mátrixok: • PAM • BLOSUM
PAM (Percent Accepted Mutations) mátrixok • Fehérje családokból globál illesztéséből származik • A család tagjai legalább 85%-osan azonosak (Dayhoff et al., 1978) • Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra • aminosav cserék számítógépes analízise
C W W -8 17 PAM 250 A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6
BLOSUM (Blocks Substitution Matrix) • Távoli rokonságban álló fehérjék doménjeinek összehasonlításából (Henikoff & Henikoff,1992). • Minden blokk minden oszlopjában minden aminosav előfordulását számolják • Az összes blokkból származtatott számokat használják aBLOSUM mátrixokhoz A A C E C A A C E C A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1
BLOSUM (Blocks Substitution Matrix) • A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően. • A klasztereket egy szekvenciaként kezelik. • A különböző BLOSUM mátrixokkülönböznek abban, hogy hány százalékos szekvenciaazonosságot használtak a klaszterezés során. • A mátrix neve mögötti szám (62 BLOSUM62 esetén)a százalékos szekvencia azonosságra utal a mátrix képzése során. • Nagyobb számok kisebb evolúciós távolságra utalnak
BLOSUM 50 mátrix H E A G A W G H E E P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1 A -2 -1 5 0 5 -3 0 -2 -1 -1 W -3 -3 -3 -3 -3 15 -3 -3 -3 -3 H10 0 -2 -2 -2 -3 -2 10 0 0 E 0 6 -1 -3 -1 -3 -3 0 66 A -2 -1 5 0 5 -3 0 -2 -1 -1 E 0 6 -1 -3 -1 -3 -3 0 66
Melyik mátrixot használjuk ? • Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAMmátrixok (Henikoff & Henikoff, 1993). • Amikorközeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számúPAMvagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén. • A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén
BLOSUM90 PAM30 BLOSUM80 PAM120 BLOSUM62 PAM180 BLOSUM45 PAM240 Rat versus mouse RBP Rat versus bacterial lipocalin
Inszerciókés deléciók figyelembe vétele A T G T A A T G C A T A T G T G G A A T G A A T G T - - A A T G C A T A T G T G G A A T G A inszerció / deléció Lyukak keletkezése negatív büntető pontokkal jár
Hézagok szankcionálása Lyuk nem megengedett Score: 10 1 GTGATAGACACAGACCGGTGGCATTGTGG 29 ||| | | ||| | || || | 1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29 Match = 5 Mismatch = -4 Hézag lehet, de büntetjük Score: 88 1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29 ||| || | | | ||| || | | || || | 1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29
Hézagok büntetése • Két szekvencia optimális alignmentjeáltalában • maximálja az illeszkedések • minimalizálja a lyukak számát. • Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne fals következtetés • Néhány hézag viszont jót tesz az illesztésnek.
Hézagok büntetése matematikailag Lineáris: (g) = - gd Két lépcsős büntetés (Affine gap) : (g) = -d - (g -1)e (g) = ghosszúságú lyuk büntetőpontja d = lyuk nyitás e = lyuk hosszabbítás büntetétőpontja g = hézaghossz
Inszerciók ésdeléciók pontozása passzol = 1 nem passzol = 0 Összpont: 4 A T G T T A T A C T A T G T G C G T A T A Összpont:8 - 3.2 = 4.8 A T G T - - - T A T A C T A T G T G C G T A T A Hézag paraméterek: d = 3 (lyuknyitás) e = 0.1 (lyuktágítás) g = 3 (lyukhossz) (g) = -3 - (3 -1) 0.1 = -3.2 inszerció / deléció
Alignment típusok • Szigorú algoritmusok - időigényes • Needleman-Wunsch • Smith-Waterman • Heurisztikus algoritmusok - gyors • BLAST • FASTA
A dinamikus programozás alapelvei • - Alignment mátrix létrehozása • - Pontszámok lépésenkéntkalkulációja • - Visszanyomozás (backtracking)(az optimálisút megállapítása)
Az alignment additív Két szekvenciarészlet összevetése x1…xi xi+1…xM y1…yj yj+1…yN A két pontszám összeadódik: F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M], y[j+1:N])
Dinamikusprogramozás I. • dinamikus programozási algoritmus Tegyük fel, hogy az alábbi két szekvenciát már illesztettük x1……xM y1……yN Legyen F(i,j) = az illesztés optimális értéke x1……xi y1……yj
Dinamikusprogramozás II. m, ha xi = yj F(i,j) = F(i-1, j-1) + s, ha nem Három lehetséges eset van: • xipasszintható yj x1……xi-1 xi y1……yj-1 yj 2. xihézaghoz illik x1……xi-1 xi y1……yj - • yjhézaghoz illik x1……xi - y1……yj-1 yj F(i,j) = F(i-1, j) - d F(i,j) = F(i, j-1) - d
F(i-1, j-1)F(i, j-1) F(i-1,j)F(i, j) s(xi ,yj) -d -d Dinamikusprogramozás III. • Honnan tudjuk, mi a korrekt? Induktív feltételezés: F(i, j-1), F(i-1, j), F(i-1, j-1) optimális Ekkor, F(i-1, j-1) + s(xi, yj) F(i, j) = max F(i-1, j) – d F( i, j-1) – d Ahol s(xi, yj) = m, ha xi = yj; s(xi, yj) = s, ha xi yj ld. mátrixok
Needleman-Wunsch Algoritmus • Kezdeti paraméterek. • F(0, 0) = 0 • F(0, j) = - j d • F(i, 0) = - i d • Fő iterációk.A mátrix kitöltése • Minden i = 1……M Minden j = 1……N F(i-1,j-1) + s(xi, yj) [1. eset] F(i, j) = max F(i-1, j) – d [2. eset] F(i, j-1) – d [3. eset] átló, [1. eset] Ptr(i,j) = bal, [2. eset] fel, [3.eset] • Termináció. F(M, N) az optimálispont, és Ptr(M, N)-bőlaz optimális alignment visszanyomozható
Azillesztési mátrix kitöltése H E A G A W G H E E 0 P A W H E A E -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -16 -24 -32 -40 -48 -56 Perem feltételek F(i, 0) = -id F(j, 0) = -jd
F(i, j) = F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(0,0) + s(xi ,yj) = 0 -2 = -2 F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16 F(1,0) + s(xi ,yj) = -8 -1 = -9 F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9 F(2,0) - d = -16 -8= -24 -2 -1 = -3 F(2,2) = max -10 -8 = -18 = -3 -9 -8 = -17 -8 -2 = -10 F(1,2) = max -16 -8 = -24 = -10 -2 -8 = -10 Azillesztési mátrix kitöltése H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 A -16 W -24 H -32 E -40 A -48 E -56 P-H=-2 E-P=-1 H-A=-2 E-A=-1 -2 -9 -10 -3
E E “Backtracking” H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 0 -8 -16 -17 -25 -20 -5 -13 -3 3 -5 1 H - E - A P G - G - H H E E - A A A W W Optimális globál alignment:
Smith - Waterman(lokális alignment) Két különbség: 1. 2. Az alignment bárhol befejeződhet a mátrixban 0 F(i, j) = F(i-1, j-1) + s(xi ,yj) F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(i, j) = max Példa: Szekvencia1 H E A G A W G H E E Szekvencia2 P A W H E A E Mátrix: BLOSUMLyukbüntetés: Lineáris, d=8