520 likes | 619 Views
Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences. Alignements vers 1960. b -corticotropine (ovine) Corticotropine A (porcine). ala gly glu asp asp glu asp gly ala glu asp glu. CYIQNCPLG CYFQNCPRG. Oxytocine Vasopressine.
E N D
Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences
Alignements vers 1960 b-corticotropine (ovine) Corticotropine A (porcine) ala gly glu asp asp glu asp gly ala glu asp glu CYIQNCPLG CYFQNCPRG Oxytocine Vasopressine
Alignement de séquencesOpération la plus fondamentale • Savoir si 2 protéines ou 2 gènes sont reliés structuralement ou fonctionnellement. • Identifier des domaines ou des motifs récurrents. • À la base des recherches en « blast ». • Analyse du génome.
Alignement de protéines vs ADN Une protéine contient plus d’information (20 vs 4). De plus plusieurs aa sont équivalents. Les codons sont dégénérés (souvent, chgmt position 3 code le même aa). Les séquences aa procurent une vision + longue. Séquences ADN peuvent être traduites avant un alignement.
Séquence protéine + informative que séquence de DNA le DNA peut être traduit selon 6 cadres de lecture 5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
… mais aligner des séq. ADN peut permettre de • Confirmer identité d’un cDNA • Étudier les séquences non codantes • Étudier le polymorphisme • Vous comparer à l’h. de cromagnon Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247
Il y a des pièges retinol-binding protein (NP_006735) b-lactoglobulin (P02754) 2 lipocalines issues de la duplication d’un gène. Structures 3D très semblables mais peu d’identités d’aa dans la séquence.
Alignement séq. (pairwise) Étalement de 2 ou plusieurs séquences afin d’achever le maximum d’identité (et de conservation dans le cas des aa) en vue d’établir leur degré de similarité et leur homologie.
Définitions • Homologie : Similarité attribuée à la descendance d’un ancêtre commun • Identité: Degré d’invariance d’une séquence de nucléotides ou aa RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84 + K ++ + + + GTW++ MA + L + A V T + +L+ W+ glycodelin: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEI V LHRWEN 81
2 types d’homologie • Orthologues: séquences homologues dans des espèces différentes issues d’un gène ancestral commun au cours de la spéciation. Peuvent avoir la même fonction. • Paralogues: séquences homologues chez une même espèce, issues de la duplication d’un gène.
common carp zebrafish rainbow trout teleost Orthologues de la RBP (rét. binding prot.) African clawed frog chicken human mouse rat horse 10 chgmts pig cow rabbit
apolipoprotein D retinol-binding protein 4 Paralogues: Membres de la même famille de protéines chez Hs. Complement component 8 Alpha-1 Microglobulin /bikunin prostaglandin D2 synthase progestagen- associated endometrial protein neutrophil gelatinase- associated lipocalin Odorant-binding protein 2A 10 chgmts Lipocalin 1
Alignement global 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin
Définitions • Similarité: degré de relation de 2 séquences (identité + conservation) • Identité: degré d’invariance • Conservation: changement qui conserve la propriété physicochimique (aa seulement)
RBP vs Lactoglob. 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin Simil. +/- Similarité Identité Gap Interne ou terminal
GAPS • Position où une lettre n’est appariée à rien • On lui donne généralement un score négatif • Comme une mutation peut donner une insertion ou une délétion de plus d’un résidu, la présence d’un gap est plus importante que sa longueur
Gaps révélateurs 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin
RBP vs RBP (Hs vs O. mykiss truite arc-en-ciel) 1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48 :: || || || .||.||. .| :|||:.|:.| |||.||||| 1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47 . . . . . 49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98 |||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || | 48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97 . . . . . 99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148 ||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| | 98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147 . . . . . 149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199 |||:||| | || || |||| :..|:| .|| : | |:|: 148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS...... 192
Alignement ► évolution Origine De la vie +vieux fossiles Origine des eucaryotes Eucaryotes/ archaea Plantes Animaux insectes Milliards d’années 4 3 2 1
glyceraldehyde 3-phosphate déshydrogenases Mouche GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA Humain GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA Plante GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA Bacterie GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA Levure GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA Archo b. GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
Famille des lipocalines Séquences paralogues chez Hs ~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2a TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo. VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein D VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding protein LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass. VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthase VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulin PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD... complement component 8 motif ►GXW
Approche générale • Choisir les séquences • Sélectionner un algorithme • Permettre ou pas les gaps • Choisir un alignement global ou local • Estimer la probabilité que alignement survienne par hasard.
L’analyse de Margaret Dayhoff sur 34 familles de protéines ProtéineMutations / 100 millions années Ig kappa chain 37 Kappa casein 33 Lactalbumin 27 Hemoglobin a 12 Myoglobin 8.9 Insulin 4.4 Histone H4 0.10 Ubiquitin 0.00
Occurrence des aa Gly 8.9% Arg 4.1% Ala 8.7% Asn 4.0% Leu 8.5% Phe 4.0% Lys 8.1% Gln 3.8% Ser 7.0% Ile 3.7% Val 6.5% His 3.4% Thr 5.8% Cys 3.3% Pro 5.1% Tyr 3.0% Glu 5.0% Met 1.5% Asp 4.7% Trp 1.0% bleu=6 codons; rouge=1 codon
“Mutabilité” relative des aa # mut / fréq. occurr. Asn 134 His 66 Ser 120 Arg 65 Asp 106 Lys 56 Glu 102 Pro 56 Ala 100 Gly 49 Thr 97 Tyr 41 Ile 96 Phe 41 Met 94 Leu 40 Gln 93 Cys 20 Val 74 Trp 18
Acide aminé original Acide aminé de remplacement Probabilité de mutation si on accepte 1% de changement Point accepted mutation = 1% ► PAM1
Les valeurs dans cette matrice réflètent la probabilité de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.
Matrice de substitution (PAM & BLOSSUM) • Contient des valeurs proportionnelles à la probabilité qu’un aa i subisse une mutation en aa j (pour chaque paire aa alignés) • Les matrices sont construites empiriquement à partir de séquences connues • Elles devraient réfléter la véritable probabilité de mutation sur une période de temps donnée
Matrices PAM • Basées sur l’alignement global de protéines très reliées (>85% identité aa) • PAM 1 est obtenue par comparaison de séquences qui divergent de 1% ou moins • Les autres matrices PAM sont extrapolées à partir de PAM 1
PAM A R N D C Q E G Ala Arg Asn Asp Cys Gln Glu Gly A 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% R 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% N 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% D 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% C 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% Q 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% E 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% PAM 2000 G 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%
Comment extrapolerà partir de PAM1 ? probabilité x probabilité
PAM250 Somme des colonnes = 100 ou 101
Matrice de probabilité de mutation► Matrice de pointage • Donner un pointage (score) à un alignement: ratio de vraisemblance Score Pourquoi le log ? Plus facile d’additionner que de multiplier.
PAM250 Matrice de vraisemblance (log odds)
Pourquoi établir une matrice logarithmique de vraisemblance Sous forme d’un log, il ne reste qu’à additionner les scores pour chaque paire d’aa au lieu de les multiplier
Expl. pour 2 tryptophanes alignés S(W/W)=10 log(0,55/0,010) = 17,4 Un score de +17 pour l’alignement de 2 W signifie que cet alignement est 50 fois plus vraisemblable qu’un alignement simplement du au hasard.
Signification de ces chiffres • Score =+2 indique que ce remplacement survient 1.6 fois plus souvent que le voudrait le hasard • Score =0 ne dit rien (neutre) • Score =-10 indique que la possibilité que l’alignement de ces 2 aa représente correctement une homologie est 10 fois moins probable qu’un alignement par chance des ces 2 aa.
60% identité score=23 hsrbp, 136 CRLLNLDGTC btlact, 3 CLLLALALTC * ** * ** PAM40 vs 24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7% hsrbp, 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV btlact, 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN * **** * * * * ** * hsrbp, 86 --CADMVGTFTDTEDPAKFKM btlact, 80 GECAQKKIIAEKTKIPAVFKI ** * ** ** PAM250
Quelle matrice choisir ? Rat vs souris Rat vs bactérie PAM vs BLOSSUM
BLOSUM Matrices Basées sur des alignements locaux BLOSUM : blocks substitution matrix. Expl: BLOSUM62 est obtenu en groupant les séquences qui ont 62% identité ou plus.
BLOSUM Matrices 100 100 100 collapse collapse 62 62 62 collapse Percent amino acid identity 30 30 30 BLOSUM80 BLOSUM62 BLOSUM30
BLOSUM Matrices Toutes les matrices BLOSSUM sont basées sur des alignements observés; Aucune n’est extrapolée La banque BLOCKS database contient des milliers d’alignements BLOSUM62 est souvent la matrice de défaut dans BLAST
BLOSSUM62 Les scores sont plus faibles ► 2 x logbase2(ratio vraisemblance)