260 likes | 351 Views
HOBACGEN : phylogénie des gènes de bactéries et d’archées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1. Génomique comparative. Recherche de régions codantes.
E N D
HOBACGEN : phylogénie des gènes de bactéries et d’archées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1
Génomique comparative • Recherche de régions codantes. • Analyse fonctionnelle: • Prédiction de la fonction d’une protéine. • Repérage de régions fonctionnelles. • Étude des contraintes structurales: • Prédiction de structures secondaires. • Recherche de mutations compensatoires.
Évolution moléculaire • Estimation du contenu du génome ancestral. • Recherche de transferts horizontaux entre certaines espèces bactériennes. • Détermination de voies métaboliques com-munes ou spécifiques à certains taxons. • Étude de la contribution des duplications géniques à l’évolution des génomes.
Banques généralistes • Faiblesse des annotations: • Définitions rares ou erronées. • Informations limitées au fait qu’un gène est similaire à un autre ou à une famille: • /note="similar to tremblnew|U52681|MT52681_5" • /note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic" • /note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"
Réfs. (PubMed) Génomes Complets Phylogénie (Taxman) Structures (MMDB) Séq. Nucl. (GenBank) Séq. Prot. (GenPept) Le système ENTREZ • Introduit la notion de voisins entre séquen-ces, structures et références. • Les voisinages entre séquences sont établis sur des critères de similarité. • Pas d’accès aux ali-gnements multiples.
Recherche manuelle • La recherche des homologues et l’interpré- tation des homologies requièrent : • De déterminer des similarités. • De calculer des alignements multiples. • De construire des arbres phylogénétiques. • De disposer de données taxonomiques. • De pouvoir accéder aux annotations des banques.
Contenu d’HOBACGEN • Organisation des gènes en familles. • Alignements multiples. • Arbres phylogénétiques. • Données taxonomiques du NCBI. • Séquences protéiques de SWISS-PROT / TrEMBL. • Séquences nucléotidiques d’EMBL.
Construction des familles • Comparaison de toutes les séquences proté-iques entre elles au moyen de BLASTP2: • Avantages: • Plus grande sensibilité que BLASTP. • Permet l’introduction de gaps. • Paramètres utilisés : • Filtrage des régions de faible complexité par le programme SEG. • Matrice BLOSUM62. • Seuil fixé à E ≤ 10-4.
Sélection des segments S3 S1 S2 S4 Séq. A Séq. B S1’ S2 Séq. A Séq. B ∆lg3 ∆lg1 lgHSP1 ∆lg2 lgHSP2
Critères d’intégration • Deux séquences non partielles font partie d’une même famille si: • Les régions conservées restantes recouvrent au moins 80% de la longueur. • Leur similarité est ≥ 50%. • Utilisation de l’inclusion transitive simple: • Si {A,B} F et {B,C} F {A, B, C} F même si {A,C} ne remplit pas les critères pré-cédents.
Séquences partielles • Une séquence partielle peut être incluse dans une famille préexistante si: • Elle rempli les conditions requises pour les séquences non partielles. • Sa longueur est ≥ 100 AA ou ≥ 50% de la lon- gueur des autres séquences. • L’inclusion transitive ne s’applique pas aux séquences partielles.
6PG1_YEAST 6PGD_CANAL 6PGD_SOYBN 6PG2_BACSU O32911_MYCLR P95165_MYCTU 6PGD_CERCA Q40311_MEDSA Y770_MYCTU Y229_SYNY3 Structure en domaines Découpage en domaines de la famille 6PGD
A B C Dérives liées à la modularité Classification de A, B, C? • En simple lien, risque d’intégration dans une même famille de protéines non-homologues: • Maintient de seuils élevés pour la longueur et intégra-tion des données de Prodom dans HOBACGEN.
Alignements et arbres • Les alignements sont calculés avec CLUS- TALW version 1.7 (paramètres par défaut). • Les arbres sont construits en utilisant : • La divergence observée comme distance. • BIONJ avec une matrice de distances complète. • La méthode de Guénoche (non publiée) avec une matrice de distances incomplète. • Racinement par la méthode du mid-point.
Accès à la banque • Architecture de type client/serveur: • Supprime les problèmes d’installation et de mises à jour pour les utilisateurs. • Utilisation de miroirs pour limiter les risques d’embouteillage sur le serveur principal. • Informations pour le téléchargement du client et du serveur disponible à l’URL: http://pbil.univ-lyon1.fr/databases/hobacgen.html
Requêtes HTTP ACNUC T-RRDLNHS TVRRDFQYI TVRRDIRKL TIRRDL-KL TIRRDI--L TIRRDLIN- EMBL Arbres ACNUC SWISS- PROT Alignements Architecture client-serveur Service Web + Programme C (Unix) Client Java (Unix, Mac, Windows)
Families File View Select Help Total number of families: 36153 HBG000059 5 5 POTASSIUM-TRANSPORTING ATPASE A CHAIN HBG000060 6 6 CA-TRANSPORTING ATPASES; POTASSIUM-TRANSPORTING ATPASE HBG000061 4 4 POTASSIUM-TRANSPORTING ATPASE C CHAIN HBG000062 33 30 ATPASE A CHAIN FAMILY HBG000063 40 36 ATP SYNTHASE ALPHA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG000064 68 60 ATP SYNTHASE BETA CHAIN, MITOCHONDRIAL; ATP SYNTHASE B HBG000065 2 2 ATPASE DELTA CHAIN FAMILY HBG000066 17 17 ATP SYNTHASE EPSILON CHAIN; SODIUM ION SPECIFIC; ATP S HBG000067 1 1 ATP SYNTHASE B CHAIN; ATPF_VIBAL HBG000068 1 1 ATP SYNTHASE B CHAIN; ATPF_HELPY HBG000069 38 36 ATP SYNTHASE GAMMA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG000070 1 1 ATP SYNTHASE E CHAIN; MITOCHONDRIAL; ATPJ_YEAST HBG000071 1 1 ATPASE C CHAIN FAMILY; ATP SYNTHASE C CHAIN; ATPL_HELP HBG000072 1 1 N-ACYL-D-AMINO-ACID DEACYLASE FAMILY; N-ISOPROPYLAMMEL HBG000073 1 1 AURACYANIN B; AURB_CHLAU HBG000074 3 3 AZLC FAMILY; AF1755; BRANCHED-CHAIN AMINO ACID TRANSPO HBG000075 3 3 ALZD/HI1737/HP1330 FAMILY; BRANCHED-CHAIN AMINO ACID T HBG000076 19 16 AZURIN II; AZURIN ISO-1; AZURIN ISO-2; H.8 OUTER MEMBR Visualisation des familles
Tree Family: HBG000066 ACCC_METJA ACCC_BACSU ACCC_PSEAE ACCC_HAEIN ACCC_ECOLI Q55160 Q54755 ACCC_ANASP Select Subtree Outgroup Swap nodes Partial Length Use leaf Up Reset Colors Close Help Visualisation de l’arbre
Sequence ACC_ECOLI ID ACCC_ECOLI STANDARD; PRT; 449 AA. AC P24182; DT 01-MAR-1992 (REL. 21, CREATED) DT 01-FEB-1994 (REL. 28, LAST SEQUENCE UPDATE) DT 01-FEB-1997 (REL. 35, LAST ANNOTATION UPDATE) DE BIOTIN CARBOXYLASE (EC 6.3.4.14) (A SUBUNIT OF ACETYL-COA DE CARBOXYLASE (EC 6.4.1.2)) (ACC). GN ACCC OR FABG. OS ESCHERICHIA COLI. OC PROKARYOTA; GRACILICUTES; SCOTOBACTERIA; FACULTATIVELY ANAEROBIC RODS; OC ENTEROBACTERIACEAE. RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RC STRAIN=K12; RX MEDLINE; 92052166. RA KONDO H., SHIRATSUCHI K., YOSHIMOTO T., MASUDA T., KITAZONO A., RA TSURU D., ANAI M., SEKIGUCHI M., TANABE T.; RL PROC. NATL. ACAD. SCI. U.S.A. 88:9730-9733(1991). Close Help Visualisation des séquences
Alignment ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPA Q54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAA Q55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPP ACCC_ECOLI -MLDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAP ACCC_HAEIN -MLEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAP ACCC_PSEAE -MLEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAP ACCC_BACSU -MIKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKA ACCC_METJA -MFNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAP Close Help Visualisation des alignements
Transferts horizontaux • Remise en cause de la notion d’espèce chez les procaryotes. • Fiabilité des méthodes de reconstruction phylogénétiques. • Implication dans l’acquisition de la patho-génicité chez certaines souches. • Résistance aux antibiotiques et aux métaux lourds.
Méthodes intrinsèques • Utilisent exclusivement l’information stockée au sein du génome étudié. • Se basent sur la composition en codons ou en oligonucléotides des gènes. • Ne tiennent pas compte des variations de G+C% existant le long du chromosome: • Surestimation du nombre de gènes transférés au voisinage du terminus de réplication.
A E B D C A E B D C Méthodes extrinsèques Congruence avec l’arbre des espèces Gène X Transfert horizontal Gène Y
Phylogénie de ilvD S. coelicolor E. coli 86 100 H. infuenzae 73 B. aphidicola Protéobactéries Firmicutes Cyanobactérie Eucaryote 95 M. leprae 100 M. tuberculosis 100 S. cerevisiae 100 L. lactis 88 Synechocystis Archaea Famille de la dihydroxy-acid déshydratase
Alignement des gènes ilvD M. tuberculosisGMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR-------GITARDILTKEAFENA/…/ M. lepraeGMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR-------GITARDILTKEAFENA/…/ L. lactisGMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK-------DIKPSDIMTKEAFENA/…/ S. cerevisiaeGLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL-------GILPRDILTKEAFENA/…/ SynechocystisGMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK-------QILPSQILTRKAFENA/…/ H. influenzaeGLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/ E. coliGLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/ B. aphidicolaGLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/ S. coelicolorGLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/ *:: * . * : . : : . . : * :* ** M. tuberculosisAENLAAITPPD-----------------------------------PDGK-VLRALANPI M. lepraeAENLASIAPPD-----------------------------------PDGQ-VIRTLHNPI L. lactisAENVETALDLD-----------------------------------FDSQDIMRPLKNPI S. cerevisiaeAERAKKAPSLP------------------------------------EGQEIIKPLSHPI SynechocystisAEVLADIPDQP-----------------------------------PAGQDVIHSWDDPV H. influenzaeGEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAI E. coliPQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAY B. aphidicolaEKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAY S. coelicolorADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY . :. .:
Perspectives • Introduction dans les alignements et les arbres de séquences personnelles. • Visualisation des données sur les domaines protéiques (ProDom). • Développement d’autres banques sur le même modèle : • Gènes de recepteurs nucléaires. • Bactéries endocytobiotiques. • Tous les gènes disponibles!