Christophe Lambert Unité de Recherche en Biologie Moléculaire FUNDP

Christophe Lambert Unité de Recherche en Biologie Moléculaire FUNDP Développement d’une méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome de Brucella melitensis FUNDP, 26 septembre 2003, Namur

Plan Introduction Buts Développement de ESyPAliNN Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives

Brucella sp. • Bactérie Gram négative (-proteo bactérie) • Pathogène intracellulaire facultatif d’animaux (stérilité et avortement) et des humains (fièvre de Malte ou brucellose).Zoonose mondiale. • 6(8?) espèces sont définies • Les génomes de deux espèces sont séquencés (Brucella melitensis et Brucella suis) Génome de Brucella melitensis 2 chromosomes (2118216 bp et 1178737 bp) 3197 protéines déduites (fonction assignée par similarité: 2487)

méthionine (M) isoleucine (I) valine (V) leucine (L) glycine (G) phénylalanine (F) tyrosine (Y) tryptophane (W) Protéines Grande partie du poids sec des êtres vivants Hétéropolymères d’acides aminés

Introduction • Structure 3D: information importante pour • mieux comprendre • la fonction d’une protéine • les interactions avec des ligands ou d’autres protéines • planifier de la mutagenèse dirigée • Nombre de structures connues (~15.000) est plus petit que le nombre de séquences connues (~1.500.000) • Techniques expérimentales: longues et coûteuses • Alternative: modélisation

Alignement Cible-template Construction du modèle 3D Evaluation du modèle Modélisation par homologie ou comparative modeling Recherche en banque de données PDB template Etape critique

MAO B (template: 1f8r, LAAO) MAO B (template: 1f8r, LAAO) 1 2 MAO B (PDB ID: 1gos)

Modélisation par homologie Recherche en banques de séquences de structures connues DIM1p (Saccharomyces cerevisiae) MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVVLEVGPGTGNL TVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELPYFDICISNTPYQISSPLVFK LINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSANVQMWANVTHIMKVGKNNFRPPPQVESSVVRLE IKNPRPQVDYNEWDGLLRIVFVRKNRTISAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEK IDTVLKETDLGDKRAGKCDQNDFLRLLYAFHQVGIHF Score E Sequences producing significant alignments: (bits) Value pdb|1YUB Solution Structure Of An Rrna Methyltransferase... 58 1e-09 pdb|1QAN Chain A, The Structure Of The Rrna Methyltransfe... 53 6e-08 pdb|1G6Q Chain 1, Crystal Structure Of Yeast Arginine Met... 31 0.28 pdb|1EI1 Chain A, Dimerization Of E. Coli Dna Gyrase B Pr... 29 1.1 pdb|3HDH Chain A, Pig Heart Short Chain L-3-Hydroxyacyl C... 27 2.4 pdb|1PSZ Chain A, Pneumococcal Surface Antigen Psaa 27 3.2 pdb|1VID Catechol O-Methyltransferase 26 7.2

Modélisation par homologie Alignement cible-template DIM1p MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV 1YUB ---------------------------MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV DIM1p LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP 1YUB YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ DIM1p YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN 1YUB NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL DIM1p VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI 1YUB LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK---- DIM1p SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC 1YUB -----------WVNREYRQLFTKN-----------------QFHQAMKHAKVNN--LSTI DIM1p DQNDFLRLLYAFHQVGIHF 1YUB TYEQVLSIFNSYLLFNGR- %id. = 18%

Modélisation par homologie Assignation des coordonnées DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... 1YUB Y E I G T G K G H L

Modélisation par homologie Assignation des coordonnées DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... L E I G T G K G H L

Modélisation par homologie Assignation des coordonnées DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... L E V G T G K G H L

Modélisation par homologie Assignation des coordonnées DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... L E V G P G K G H L

Modélisation par homologie Assignation des coordonnées DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... L E V G P G T G H L

Modélisation par homologie Assignation des coordonnées DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... L E V G P G T G N L

Modélisation par homologie Assignation des coordonnées DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... Modèle de DIM1p L E V G P G T G N L

%id. 100 50 40 30 25 20 0 Modélisation par homologie (fiable) • Alignement pairé: la plupart des caractéristiques bien prédites Alignement multiple: beaucoup de caractéristiques bien prédites Twilight zone Combinaison d’alignements et données expérimentales quelques caractéristiques bien prédites Midnight zone reconnaissance de fold(pas très fiable) Protéines pas nécessairement homologues MAIS des protéines de séquences différentes peuvent adopter le même fold

1/1 10/10 5/5 1/2 5/10 10/20 1/10 5/50 10/100 100 10/535 Sélectivité (%) 50 10 10 50 100 Sensibilité (%)

Buts • Développer une méthode fiable d’alignement pairé de séquences • Développer un programme de modélisation automatique par homologie • Prédire la structure 3D des protéines déduites du génome de Brucella melitensis

Limites de l’alignement multiple • Thompson J.D. et al. Nucleic Acids Res. 27(13):2682-2690 (1999) • Aucun programme n’est meilleur que les autres • La qualité de l’alignement dépend de l’ensemble de séquences (séquences similaires, divergentes, courtes, longues, ...) • Il y a des erreurs systématiques lorsqu’on aligne des séquences dans la twilight zone (20-30% d’identité) • Briffeuil P. et al. Bioinformatics 4:357-366 (1998) • Le consensus de plusieurs méthodes augmente la sélectivité • Lambert C. et al. Current Genomics 4:131-146 (2003) • La combinaison de plusieurs méthodes peut augmenter la précision

Etape 1 PSI-BLAST PURGE Etape 2 Ensemble B Ensemble A Etape 3 Multalin T-COFFEE ClustalW Dialign2 Match-Box Extraction des alignements pairés ESyPAli Expert System for Pairwise Alignment Deux séquences

ESyPAli Fréquence Etape 4 Attribution d’un score aux positions alignées Extraction des positions alignées Extraction des alignements pairés

Attribution d’un score aux positions alignées Séquence 1 L-G: 3 L-R: 2 L-D: 1 E-D: 4 E-E: 1 E-A: 1

ESyPAli Fréquence Etape 4 Attribution d’un score aux positions alignées Extraction des positions alignées Etape 5 Choix de la position ayant le plus haut score comme point d’ancrage Construction de l’alignement consensus final Elimination des positions incompatibles Points d’ancrage Extraction des alignements pairés

Alignements incompatibles 1. A D L I I Y L R T S P E V A Y E 2. L P G T N I V L G A L P E D R H

ESyPAli Fréquence Etape 4 Attribution d’un score aux positions alignées Extraction des positions alignées Etape 5 Choix de la position ayant le plus haut score comme point d’ancrage Construction de l’alignement consensus final Elimination des positions incompatibles Points d’ancrage Extraction des alignements pairés

ESyPAliNN Elimination des positions incompatibles Points d’ancrage Extraction des alignements pairés Réseau neuronal Etape 4 Attribution d’un score aux positions alignées Extraction des positions alignées Etape 5 Choix de la position ayant le plus haut score comme point d’ancrage Construction de l’alignement consensus final

Entraînement du réseau neuronal Entrée Sortie connue Entrée Sortie Wik Yi Yk V V Cachée Séquence 1 Structure 1 L L ClustalW ClustalW I Match-Box Match-Box I Dialign2 Dialign2 I Multalin Multalin T PSI-BLAST PSI-BLAST L L T-COFFEE T-COFFEE

Utilisation du réseau neuronal Entrée Sortie Cachée Y Y Séquence 1 Séquence 1 W W ClustalW ClustalW T Match-Box Match-Box T Dialign2 Dialign2 T Multalin Multalin Y PSI-BLAST PSI-BLAST W W T-COFFEE T-COFFEE

Résultats de l’évaluation sur 202 alignements pairés % identité inférieur à 36 % %ID moyen = 20% ProgrammeSensibilité (%) Sélectivité (%) Alignement de structures 100,0 100,0 MULTALIN 25,5 44,0 MATCHBOX 27,1 27,8 DIALIGN2 33,9 48,1 PSIBLAST 35,2 47,8 CLUSTALW 35,9 29,2 T-COFFEE 37,5 47,4 ESyPAli 44,2 36,8 ESyPAliNN 46,8 38,9

Alignement pairé Conclusions • ESyPAli • Combinaison efficace d’alignements • ESyPAliNN • Utilisation de réseaux neuronaux • Alignements de meilleure qualité

MODELLER v6.2 ESyPred3D Expert System to Predict 3D structures of proteins C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002) Entrée Séquence cible PDB template PSI-BLAST, nr (NCBI) ESyPAliNN Alignement Cible-template Résultat Procheck Structure cible prédite

Qualité de l’étape ESyPAliau concours CASP4 C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002)

ESyPred3D EVA Système d’évaluation continue de serveurs de modélisation par homologie (catégorie CM) ESyPred3D , 3D-Jigsaw , Swiss-Model 853 modèles de janvier à juin 2003

ESyPred3D CASP5 • CASP5 • ESyPred3D parmi les 10 meilleurs serveurs évalués (sur 55) • ESyPred3D dans le top 40 (si modélisateurs humains + serveurs (180)) • Améliorer possible de la sélection du template

ESyPred3D Conclusions • ESyPred3D est un des meilleurs serveurs de modélisation • Performances dues essentiellement à ESyPAliNN

Plan Introduction Buts Développement de ESyPAli(NN) Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives

Banque de données structurales Intérêt • Prédiction (détermination) de structures 3D à l’échelle d’un génome • 1) Structure (prédite) accessible • Ingénierie, hypothèses mutations • 2) Recherche de sites actifs • Aide à la détermination de fonction • 3) Screening (docking) de petites molécules • Recherche de cibles pour antibiotiques

Banque de données Qualité des données Problème définition de la position des codons start des pCDS de Integrated Genomics Inc. ----> Correction: consortium de spécialistes de Brucella Fonction prédite par similarité: BLAST/Swiss-Prot et hmmer/Pfam Localisation cellulaire: PSORT Prédiction des structures secondaires: PSI-PRED2 Application de ESyPred3D aux protéines déduites du génome de Brucella melitensis http://serine.urbm.fundp.ac.be/~seqbruce/GENOMES

Objectifs atteints de la banque de données • Centraliser les informations à propos du génome de Brucella • Fournir des prédictions pour faciliter l’annotation et la rendre plus fiable • Corriger les informations de la base de données suivant les modifications des utilisateurs • Effectuer des recherches avancées • Aider à coordonner des corrections à l’échelle génomique • Intégrer des données biologiques pertinentes

Christophe Lambert Unité de Recherche en Biologie Moléculaire FUNDP