600 likes | 909 Views
Introduction à la Bioinformatique. David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32 david.perret@etud.univ-angers.fr. 1. Université d’Angers - Maîtrise de Biologie Cellulaire. Qu’est-ce qu’un génôme ?. Des gènes : portions d’ADN codant des protéines
E N D
Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32 david.perret@etud.univ-angers.fr 1 Université d’Angers - Maîtrise de Biologie Cellulaire
Qu’est-ce qu’un génôme ? • Des gènes : • portions d’ADN codant des protéines • portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … • portions d ’ADN codant des ARN non traduits • Eléments régulateurs : promoteurs, enhancers, … • Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … • Séquences non fonctionnelles : • séquences non codantes • séquences répétées • pseudogènes 2 Université d’Angers - Maîtrise de Biologie Cellulaire
Taille des génômes ? Mycoplasma genitalium : 0,6 Mb Prokaryotes Escherichia coli : 4,7 Mb Eukaryotes Saccharomyces. cerevisiae : 13,5 Mb C. elegans : 100 Mb Fugu rubripes : 400 Mb Homo sapiens : 3400 Mb Amphibiens : 100 000 Mb Amoeba dubia : 700 000 Mb 3 Université d’Angers - Maîtrise de Biologie Cellulaire
Gènes protéiques ARN Non codant Gènes et éléments fonctionnels dans les génomes E. coli ? H. sapiens Taille du génôme : x1000 Nombre de gènes : x10 4 Université d’Angers - Maîtrise de Biologie Cellulaire
Proportion d’éléments « fonctionnels » dans le génôme humain 85 % d’ADN sans fonctions connues 5 Université d’Angers - Maîtrise de Biologie Cellulaire
Traduction MATURATION AAAAA Régions non traduites (UTR) Régions traduites (CDS) Gène protéique eucaryote type promoteur exons introns site de polyadénylation ADN TRANSCRIPTION préARNm signaux d’épissage ARNm donneur accepteur ATG STOP AG GT AG GT point de branchement Protéine 6 Université d’Angers - Maîtrise de Biologie Cellulaire
ATG STOP polyA Tailles moyennes Epissage alternatif dans 30% des gènes Structure d’un gène protéique humain 7 Université d’Angers - Maîtrise de Biologie Cellulaire
Transcriptase inverse RETROVIRUS REVERSE TRANSCRIPTION ADN INTEGRATION TRANSCRIPTION CELLULE NOYAU gène élément répété • LINE(s) : long interspersed elements (6-8 kb) • SINE(s) : short interspersed elements (80-300 bp) crossing-over inégal • Rétrovirus endogènes (5-10 kb) mutation D’où provient la complexité du génôme humain ? • Rétroéléments • Pseudogènes : après la duplication d’un gène • Evolution vers une nouvelle fonction • Inactivation d’un gène 8 Université d’Angers - Maîtrise de Biologie Cellulaire
promoteur gène ADN transcription et maturation AAAA mRNA rétrotranscription et intégration AAAA DNA D’où provient la complexité du génome humain ? • Rétropseudogènes • 23000 à 33000 dans le génome humain • dérivé de gènes ubiquitaires 9 Université d’Angers - Maîtrise de Biologie Cellulaire
L’alignement des séquences biologiques : pourquoi ? • Identification de gènes homologues ; • Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ; • Prédictions de fonctions ; • Prédictions de structures d’ARN et de protéines ; • Reconstitution des relations évolutives entre séquences (phylogénie) ; • Choix d’amorces pour la PCR ; 10 Université d’Angers - Maîtrise de Biologie Cellulaire
Ancêtre commun Prot1 Prot2 Prédiction de fonction par homologie ? • Mais… • Le concept de fonction est flou : • Activité biochimique identique ? • Distribution tissulaire identique ? • Compartimentation identique ? • Protéines homologues de fonctions différentes ? • Homologues ligands d’un même récepteur • Homologues recrutées pour des fonctions • très différentes Prot1 TKRKLCGDSSPD Prot2 AKRKSCGDSSPD SIMILARITE HOMOLOGIE CONSERVATION STRUCTURALE FONCTION CONSERVEE 11 Université d’Angers - Maîtrise de Biologie Cellulaire
2000 1900 Histoire 1865 (Mendel) Théorie de l’hérédité 1944 (Avery) ADN, support de l’information génétique 1951 (Watson & &Crick) L ’ADN est une double hélice 1970 Needleman & Wunsch 1951 (Sanger) Séquençage de l’insuline 1978(Dayhoff) Matrices PAM 2000/2001 1ier brouillon du génome humain 1970 Needleman & Wunsch 1980/1986 Création de l’EMBL (1980) ,de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986) 1990 (Altschul) BLAST 1981 (Smith & Waterman) Smith & Waterman 1990 (Henikoff) Matrices BLOSUM 12 Université d’Angers - Maîtrise de Biologie Cellulaire
Les banques de données de séquences biologiques : accessibilité sur Internet Articles et livres 1968 -> 1985 Cassettes informatiques 1982 ->1992 Disquettes 1984 -> 1990 CD-ROM 1989 -> ? Serveur FTP 1989 -> ? WWW 1993 -> ? DVD 2001 -> ? 13 Université d’Angers - Maîtrise de Biologie Cellulaire
0 1 Les étapes du séquençage d’un génome Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps HTG 2 Séquence non-terminée : contigs orientés et ordonnés, gaps 3 HUM Séquence terminée 14 Université d’Angers - Maîtrise de Biologie Cellulaire
Les banques de données de séquences biologiques : définition • Une collection de données : • structurées ; • indexées (table des matières) ; • périodiquement mise à jour ; • contenant des références croisées avec d’autres banques. • Elles comportent souvent des outils associés (logiciels) nécessaires pour : • l’accession à la banque ; • la mise à jour de la banque ; • … • Il existe essentiellement deux catégories de banques de données : • généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … • spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ... 15 Université d’Angers - Maîtrise de Biologie Cellulaire
Les banques de données de séquences biologiques : structure d’une entrée de la banque Identification de la séquence ID IL6_HUMAN STANDARD; PRT; 212 AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxinomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs 16 Université d’Angers - Maîtrise de Biologie Cellulaire
Les banques de données de séquences biologiques : structure d’une entrée de la banque FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6. FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...). FT VARIANT 32 32 P -> S. FT /FTId=VAR_013075. FT VARIANT 162 162 D -> V. FT /FTId=VAR_013076. FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY. FT MUTAGEN 204 204 S->P: 13% ACTIVITY. FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Annotation de la séquence Séquence Fin de l’entrée • La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …) >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM 17 Université d’Angers - Maîtrise de Biologie Cellulaire
Les banques de données de séquences biologiques : laquelle choisir ? AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ... 18 Université d’Angers - Maîtrise de Biologie Cellulaire
Les banques de données de séquences biologiques : accessibilité sur Internet • Banques généralistes : • GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/ • DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp • EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/ • Banques spécialisées : • ProSite : http://www.expasy.ch/prosite/ • Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml • BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/ • FlyBase : http://flybase.harvard.edu:7081/ 19 Université d’Angers - Maîtrise de Biologie Cellulaire
G C W 0000 0001 1010 Une séquence : symboles, structure et fonction • Alphabet de symboles (acides aminés) : • chaque symbole a une signification propre ; • chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ; • chaque symbole peut être décrit par un descripteur binaire (1 ou 0) : AA1 AA2 di1 : l’acide aminé i est gros di2 : l’acide aminé i est chargé positivement di3 : l’acide aminé i est aromatique di4 : l’acide aminé i est soufré d11 d12 d13 d14 d21 d22 d23 d24 descripteur binaire de l’acide aminé 1 descripteur binaire de l’acide aminé 2 Exemple : descripteur binaire de la séquence GCW L’ensemble des descripteurs binaires d’une séquence contient toute l’information nécessaire à la protéine pour adopter sa structure et donc sa fonction. G : 0000 C : 0001 W : 1010 20 Université d’Angers - Maîtrise de Biologie Cellulaire
domaine Protéine A Protéine B Alignement global et alignement local • Alignement global (Needlman & Wunsch, 1970) Protéine A Protéine B • Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) ARNm gène 21 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement : représentation • Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une autre ; • insertions (i) : • délétions (d) : • substitutions (s) : A A - B C A A * * * * * * A A C B C A A INsertion / DELétion INDEL A A B C A A * * * * * A A - C A A A A B C A A * * * * * A A C C A A 22 Université d’Angers - Maîtrise de Biologie Cellulaire
Quel est le meilleur alignement ? GTTACGA *** ** GTT-GGA GTTACGA *** ** GTTG-GA GTTAC-GA *** ** GTT--GGA 5 matches 1 délétion 1 substitution (C>G) 5 matches 1 délétion 1 substitution (A>G) 5 matches 2 délétions 1 insertion Système de score : se = score élémentaire sp = pénalité d’indel 23 Université d’Angers - Maîtrise de Biologie Cellulaire
A C G T Les matrices nucléiques de substitution • Unitaire et unitaire inverse : • Matrices évolutives : Matches : 3 Transitions : 1 Transversions : 0 24 Université d’Angers - Maîtrise de Biologie Cellulaire
Mutation GLU LYS d ’ou GAA GAG AAA AAG Les matrices protéiques de substitution • Matrice de substitution protéique liée au code génétique • Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé 1 mutation sur la première base du codon 25 Université d’Angers - Maîtrise de Biologie Cellulaire
Les matrices protéiques de substitution • Les matrices liées aux propriétés physico-chimiques : • hydrophobie / hydrophilie (Levitt, 1976) ; • propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986). 26 Université d’Angers - Maîtrise de Biologie Cellulaire
Les matrices protéiques de substitution • Les matrices liées à l’évolution : matrices PAM • représentent les échanges possibles et acceptables d’un acide aminé par un autre lors de • l’évolution des protéines (Dayhoff, 1978). • Principe de base : si deux séquences appartiennent au même processus évolutif, et qu’un acide aminé de l’une a été muté pour donner l’autre, alors on peut supposer que les deux acides aminés sont similaires : • les mutations sont dites acceptées (Point Accepted Mutation) • elles ont été conservées au cours de l’évolution de part leur caractère à ne pas altérer la fonction de la protéine. • Les protéines évoluent via des successions de mutations ponctuellesindépendantes les unes des autres et acceptées dans la population. 27 Université d’Angers - Maîtrise de Biologie Cellulaire
La matrice de substitution PAM250 (Dayhoff, 1978) ? ? 28 Université d’Angers - Maîtrise de Biologie Cellulaire
Aij : nombre de mutations i j acceptées observées Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4) Fréquences d’échanges de paires d’acides aminés Mutation fixée durablement au cours de l’évolution unité de distance évolutive 1 unité PAM = une mutation ponctuelle acceptée entre deux séquences pour 100 résidus Utilisation de 71 familles (1300 protéines) de protéines à 85% identiques Construction d’arbres phylogénétiques Construction des matrices pour chaques couples d’acides aminés échangés 29 Université d’Angers - Maîtrise de Biologie Cellulaire
Les matrices de substitution PAM (Dayhoff, 1978) : construction (2/4) Mutabilité des acides aminés (mj) • Propension d’un acide aminé a être remplacé par un autre acide • aminé • Soit l’alignement suivant : • Les acides aminés en jeu sont les suivants : A, D, E, F, W et R. A D E F R E A D D W R E 30 Université d’Angers - ISSBA - Option Biotechnologie
Matrice de probabilité de mutation Matrice « odds » Les matrices de substitution PAM (Dayhoff, 1978) : construction (3/4) • Calcul de la probabilité qu’un acide aminé i de la matrice remplace un acide aminé j : • La matrice ainsi construite est appelée 1-PAM : elle définit l’unité de changement évolutif, l’unité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés. • Chaque élément de la matrice est divisé par la fréquence d’occurrence de chaque acide aminé 31 Université d’Angers - Maîtrise de Biologie Cellulaire
Matrice « log-odds » Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4) • Elle est calculée en prenant le logarithme de la matrice précedente : • Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes : • - applications successives de 1-PAM sur une séquence ; • - multiplication de la matrice 1-PAM par elle-même puis application à une séquence : • - rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence : 32 Université d’Angers - Maîtrise de Biologie Cellulaire
Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4) • Utilisation de la matrice PAM Twilight Zone Distances (en % de différences) PAM 33 Université d’Angers - Maîtrise de Biologie Cellulaire
La matrice de substitution PAM250 (Dayhoff, 1978) L’asparagine et l’alanine sont plus mutables que les acides aminés aromatiques Les aromatiques sont peu mutables 34 Université d’Angers - Maîtrise de Biologie Cellulaire
50% Fréquences de substitution pour chaque acide aminé BLOSUM50 Les matrices protéiques de substitution • Les matrices de type BLOSUM (BLOcks Substitution Matrix) • observation de blocs d’acides aminés issus de protéines relativement éloignées ; • chaque bloc provient d’alignements multiples sans insertions / délétions de courtes régions conservées ; • les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d’identité minimum au sein de leur bloc ; • on en déduit des fréquences de substitution pour chaque paire d’acides aminés ; • on calcule une matrice logarithmique de probabilité ; • à chaque pourcentage d’identité correspond une matrice : • BLOSUM50 avec un seuil d’identité de 50 % ; • BLOSUM62 avec un seuil d’identité de 62 %. 35 Université d’Angers - Maîtrise de Biologie Cellulaire
Quelle matrice de substitution choisir ? BLOSUM Identité PAM • Pas de matrice idéale ; • Les matrices dérivées des mutations observées donnent, • pour les protéines, de meilleurs résultats que les matrices • basées sur l’identité, le code génétique ou les propriétés • physico-chimiques. • Matrices PAM établies par M. Dayhoff (1978) : • donnent un trop grand poids aux identités ; • négligent trop les ressemblances structurales ; • PAM250 : séquences éloignées, faible identité ; • PAM125 : séquences proches, identité élevée. • Matrices BLOSUM (1992) : • construites à partir de plus de données ; • BLOSUM62 : séquences proches, identité élevée ; • BLOSUM30 : séquences éloignées, identité faible. • Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press. • http://barton.ebi.ac.uk/papers/rev93_1/rev93_1.html 100 90 90 80 50 70 62 60 50 50 100 40 120 30 30 20 250 10 0 36 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement global et programmation dynamique : Needlemann & Wunsch (1970) • Soient 2 séquences A et B de longueur respective m et n ; • Soient i et j 2 acides aminés quelconques de A et B. Matrice transformée par l’addition de scores Chemin des scores maxima Construction d’une matrice de comparaison (m,n) 37 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 i i<xm y = j+1 j x = i+1 j<yn Matrice initiale Transformation de la matrice initiale 38 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 S(x,y) S(D,E) = 7 S(A,E) = 2 S(F,E) = -5 S(D,A) = 2 S(D,L) = -4 Matrice initiale Matrice en cours de transformation 39 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 insertion dans i délétion dans j substitution insertion dans j délétion dans i V T - E E R D A F L T S H E - - A L Matrice transformée et chemin des scores maxima Listing d’édition 40 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement global : limites • Les deux séquences présentent une similarité que l’alignement global ne révèle pas : G G C T G A C C A C C - T T | | | | | | | G A - T C A C T T C C A T G • Un alignement local aurait donné le résultat suivant : G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G 41 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement local : Smith & Waterman (1981) • N’importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ; • Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ. Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initiale Matrice dont les scores négatifs ont été supprimés 42 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 i i+2<xm y = j+1 j x = i+1 j+2<yn Matrice initiale Transformation de la matrice initiale 43 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 P = 6 S(x,y) S(D,E) = 7 S(F,E) = -6 S(D,L) = -6 Matrice initiale Matrice en cours de transformation 44 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 insertion dans i délétion dans j substitution insertion dans j délétion dans i 3 : E E R D A F : 8 2 : T S H E A L : 7 Matrice transformée et chemin des scores maxima Listing d’édition 45 Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement local : recherches de similitudes dans les banques de séquences • Pourquoi ? • Savoir si ma séquence ressemble à d'autres déjà connues • Trouver toutes les séquences d'une même famille • Rechercher toutes les séquences qui contiennent un motif donné • Outils • grand volume de texte à traîter • programmes classiques d’alignement inutilisables • utilisation d’heuristiques • programmes BLAST et FASTA • le résultat n ’est pas garanti comme étant le meilleur 46 Université d’Angers - Maîtrise de Biologie Cellulaire
BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990) • Recherche de régions sans insertions / délétions riches en similarité ; • Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; • Hachage de la séquence « requête » en mot de taille w Séquence requête m Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. … Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP). 47 Université d’Angers - Maîtrise de Biologie Cellulaire
X T BLAST : exemple m(w=3) S L A A L L N K C K T P Q GQ R L V N Q W P Q G 18 P E G 15 P R G14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12 ... S(P,P) = 7 S(Q,R) = 1 S(G,G) = 6 Liste de mots voisins Score seuilT = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310 High Scoring Pairs (HSP) 48 Université d’Angers - Maîtrise de Biologie Cellulaire
BLAST : Approche à adopter • Choix de l’algorithme ; • Matrice de substitution ; • Stratégie de recherche : nucléique ou protéique ; • Traitement du bruit de fond. FASTA Paramètres par défaut BLAST Paramètres par défaut Filtrage FASTA Adaptation des paramètres BLAST Adaptation des paramètres 49 Université d’Angers - Maîtrise de Biologie Cellulaire
BLAST : Choix du programme SEQUENCE BANQUE BLASTP Protéique Protéique BLASTX TBLASTN T T BLASTN Nucléique Nucléique TBLASTX T T 50 Université d’Angers - Maîtrise de Biologie Cellulaire