CIB : Centre Intégré de Bioinformatique

CIB : Centre Intégré de Bioinformatique E-G. Talbi CIB – Génopole de Lille

Plate-formes Maladies multi-factorielles

CIB : Plateforme Bioinformatique Qui - Comité pilotage : E-G. Talbi, C. Dhaenens, R. Beuscart - Ingénieurs : J. Soula, V. Cognat, B. Planquelle, M-P. Vanhoecke - Support logistique et scientifique du LIFL et du CERIM : Bi-localisation Institutions • - LIFL – USTL • CERIM - Services à la Faculté de • Médecine USTL - Lille2 - CNRS : Travaux réalisés : 2001-2003

Plan présentation • Organisation matérielle • Formation, Service • CIB – Séquencage & génotypage • CIB – Protéomique • CIB - Transcriptome

Architecture du réseau (Créé « from scratch ») • Cluster de 2 Quadriprocesseurs ALPHA Unix Tru 64 (4*667Mhz), • Espace de Stockage de 432 Giga Byte (RAID 1 et RAID 5) • SGBD Oracle 8i (134 utilisateurss) Renater network access 12 Mbits/s Serveur web Firewall Zone sécurisée

Réseau physique Autre machine utilisée : IBM SP3 au CRI (64 proc) – Intelligent Miner

Formations Formations générales Bioinformatique (CIB – CNRS) • Autour du Web – 1 jour - 13 personnes • UNIX / Réseau – 2 jours - 18 personnes • Banque de données – 2 jours - 31 personnes • Base de données – 2 jours - 15 personnes • Analyse de séquences – 2 jours - 26 personnes • Phylogénie – 2 jours - 18 personnes • Enseignement DESS Bioinformatique (Depuis 2001) • Encadrement de stagières (Ingénieurs, DESS, Maitrise, DEA, …)

Formation spécifique (CIB – CNRS – INSERM) Analyse statistiques de données issues des biopuces 10 au 12 septembre 2003 Objectifs de la formation : donner aux biologistes les bases suffisantes en statistiques pour comprendre et appréhender les différentes méthodes d’analyse des données de biopuces. Les aider dans la mise en place d’un protocole d’analyse des données. Public visé : biologistes lillois utilisant la technologie des puces à ADN Programme :Alternance Cours / TP • - Représentation et Normalisation des données • - Analyse différentielle des données • - Classification supervisée et non supervisée • Formateurs : • - Jacques Van Helden, Université Libre de Bruxelles • - Stéphane Robin, OMIM - INA-PG de Versailles • - Cyrille Dalmasso, INSERM - Villejuif • Nombre de participants : • - 27 inscrits en cours • - 17 inscrits en TP

Mise à disposition d’outils • Base de données : • Human Genome Data Base (online) : Santa Cruz (CA) • Ensembl • Gene Ontology • Logiciels : 180 Open Source Software (online) : alignement, phylogeny, sequence analysis, … • Site Web :Outil de communication et d’échanges : forum de discussion, listes de diffusion, serveur ftp, newgroups,

Coopération entre plateformes Séquençage et génotypage Protéomique Bioinformatique Transcriptome • Sélection d’attributs et Clustering :Recherche de facteurs de prédisposition de maladie multifactorielles (obésité, diabètes de type II). • LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, S. Gallina

Interactions génétiques et environnementales Contexte : • Etudes familiales • Analyses d’interaction : co-transmission de gènes Objectif Localiser un ou plusieurs gènes de prédisposition à certaines maladies : diabète ou obésité Données : • Pour chaque famille : comparaison de l’héritage de gènes (marqueurs) et de facteurs environnementaux • 3652 marqueurs génétiques et 2 facteurs environnementaux pour une centaine d’individus

Interactions génétiques et environnementales Hypothèses : • Beaucoup d’attributs (loci et facteurs environnementaux) • Existence de valeurs manquantes • Contexte d’apprentissage non supervisé Objectif : • Découvrir des groupes d’attributs cause de la maladie (corrélations entre attributs) • Groupe 1 : loci 1 et loci 20 et loci 50 • Groupe 2 : loci 17 et loci 43 et loci 75

Selection d’attributs Clustering K-mean ou algorithme génétique Algorithme génétique Approche 2 phases Groupes m attributs N attributs N >> m Réalisation

Publications Chapitre d’ouvrage : • L. Jourdan, C. Dhaenens, E-G. Talbi, "Discovery of genetic and environmental interactions in disease data using evolutionary computation", Evolutionary Computation in Bioinformatics, Edited by G. B. Fogel and D. W. Corne, Morgan Kauffmann Publishers, USA, 2002. Journaux : • L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, “A data mining approach to discover genetic and environmental factors involved in multi-factorial diseases”, Knowledge-based Systems, Vol.15, No.4, pp.235-242, May 2002. Conférences : • L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, "A branch and bound procedure to analyze multifactorial diseases", European Mathematical Genetics Meeting EMGM’2001, Lille, April 2001. • L. Jourdan, C. Dhaenens, E-G . Talbi, S. Gallina, “An optimization approach to mine genetic data”, Int. Conf. On Mathematics and Engineering Techniques in Medecine and Biological Sciences METMBS’2001, Edited by F. Valafar, Las-Vegas, USA, June 2001.

Coopération entre plateformes Séquençage et génotypage Protéomique Bioinformatique Transcriptome • Règles d’association : Etude de déséquilibre de liaison (linkage desequilibrium) • LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, C. Dina

Etude de linkage disequilibrium Objectif : Trouver des ensembles d’haplotypes pouvant expliquer le diabète de type II Données : • Pour chaque individu : La valeur de ces SNPs et son statut • Pour chaque SNP: fréquence allélique • Pour chaque combinaison de SNPs: leur déséquilibre Contraintes : • Snips d’un haplotype doivent être indépendants : • Différence de fréquence < threshold1. • Linkage disequilibrium > threshold2.

Approche • Méthode de recherche : Algorithme génétique adaptatif multi-population • Fonction d’évaluation spécifique basée sur deux logiciels classiques : CLUMP et EH-DIALL Résultat Règles telles que : • SNP10=1-2 ET SNP20=2-2 ALORS Status=ill • SNP17=1-1 ET SNP45=2-2 ALORS Status=ill Publication L. Jourdan, C. Dhaenens, E-G. Talbi, “Discovering haplotypes in linkage disequilibrium mapping with an adaptive genetic algorithm”, EvoBio’2003, EuroGP2003, LNCS 2611, pp. 66-75, 2003.

Coopération entre plateformes Séquençage et génotypage Protéomique Bioinformatique Transcriptome • Classification : Analyses de spectres (glycannes, proteines) • Centre Commun de Spectrométrie de Masse – J. Lemoine, C. Rollando.

Interprétation de spectres de glycannes Gel 2D (Electrophorèses) • Analyse de spectres • Reconstruction de l’arbre du glycanne à partir d’un spectre • Haut débit : 80 Go/mois de nouvelles données Spectrum

Moteur d’interprétation • Recherche Combinatoire: coûteux en temps et espace • Données incertaines • Nombreuses solutions théoriques Algorithme Branch and Bound • Besoin de paralléliser et distribuer l’algorithme • Utilisation support d’exécution sur GRILLES • Intégration contraintes biologiques • Utilisation d’évaluations heuristiques Brevet déposé

Plateforme visuelle pour l’interprétation de glycannes • BD spectres de glycannes • Relation avec banque de données publiques (internet) • Interface de visualisation et Edition • Moteur d’interprétation Disponible sur demande

Coopération entre plateformes Séquençage et génotypage Protéomique Bioinformatique Transcriptome • Base de données : Gels bidimentionnels • Laboratoire de Biologie du Développement (CNRS) – H. Hondermarck,

Gels Bi-dimensionnelsObjectif Mettre en place une plate-forme permettant de stocker et d’exploiter la masse de données disponibles Banque de Gels Bidimensionnels accès sécurisé accès publique donnant accès à Données « Privées » Données « Publiques » propres à chaque équipe et confidentielles publiées dans la littérature pour les équipes de la génopole ET pour des équipes extérieures

d’une ou plusieurs images • de listes des spots (rapports) Gels Bi-dimensionnelsNature des données Pour chaque gel, on dispose donc : • de spectres de masses (identification, séquençage des protéines)

Gels Bi-dimensionnelsRéalisations • Base de données associée : MySQL, Interface PHP • Contrôle/sécurisation des accès aux informations(contraintes base publiques/privées) : Utilise l’annuaire LDAP de la génopole • Outils permettant d’effectuer des recherche à partir des données stockées • Formulaires d’affichage et d’ajout/modification d’informations : images de gel, listes des spots, carte d’identité des protéines, spectre de masse, …

Gels Bi-dimensionnelsInterface • Disponibilité : www.genopole-lille.fr

Gels Bi-dimensionnelsFormulaire affichage

Coopération entre plateformes Séquençage et génotypage Protéomique Bioinformatique Transcriptome • Classification visualisation du protéome : DIACELL • Laboratoire de Biologie du Développement– H. Hondermarck.

Visualisateur DIACELL • Trois types de cellules (cancer du sein) • Normales • Cancéreuses non métastasiques (MCF-7) • Cancéreuses métastasiques • (MDA-MB-231) • 3 types de visualisation • Projection 2D • Enveloppe convexe • Projection 3D

3D 2D Recherche de l’enveloppe convexe (données non précises)

Coopération entre plateformes Séquençage et génotypage Protéomique Bioinformatics Transcriptome • GdlArray : Base de données, outils de design de puces et outils d’analyse de données (datamining) • 2 plateformes de biopuces : Institut Pasteur de Lille, Lille 2 (INSERM, CHR)

GdLarray Bases de données régionales pour les biopuces et sa suite logicielle

Plateforme Biopuces 1. Sélection des sondes Sélection de Clones Sélection d’oligos XX-Frag 3. Traitement des données (normalisation, …) Outils du CIB Imagene Jaguar 2. Design des expériences Matériel biologique & puces (contrôle du schéma de spottage) Base de données Biopuces GdLarray • Base de données • Publiques • (NCBI, EMBL, …) • Fonctions, annotations, bibliographie 4. DATA MINING (clustering, règles XW-Apriori, …) Bases de données médicales Pathway Genespring

Création de la Base de données Etapes du projet • Etudes des recommandations MIAME (Mars 2002) • Ebauche d’un schéma conceptuel en réponse aux besoins des équipes de la Génopole (Mai 2002) • Adaptation de la plateforme BASE (MySQL, PHP, normalisation, clustering, visualisation) sous Oracle 8i (version 1.0.6 en Mars 2003 / version 1.2.7 en Septembre 2003) • Formation des biologistes à son utilisation : octobre 2003

Création de la Base de données Étude des données et du schéma

Création de la Base de données Développement d’outils d’administration • Deux modes d’administration • En mode graphique : TORA (ToolKit for Oracle) – GNU GPL • En mode ligne : Scripts shell/SQL • Gestion des utilisateurs (sécurité, confidentialité) • Par le mécanisme de rôles Oracle Architecture 3-tiers • CLUSTER 2 quadri processeurs ES40 Alpha • Oracle 8i Entreprises • Plusieurs unités de disques en RAID1 et 5

La base est accessible sur le site web de la Génopole : http://www.genopole-lille.fr/fr/logiciel/microarray/index.html

Outils de design de puces Sélection de sondes : XXfrag Sélection de clônes Sélection d’oligos Sélection de primers : FindExpress Outil de positionnement des sondes

Sélection de sondes - XXfrag XXfrag : Design de fragments d’ADNc le long des chromosomes du génome Humain Application à l’Hybridation Génomique Comparative (CGH) (INSERM, CHR) Ce programme permet de : • Récupérer des fragments appartenant aux régions d’intérêt du génome(chromosome, bras). • Choisir les fragments selon le type de puce que l´on désire créer (cDNA, génomique..). • Sélectionner ces fragments selon leur taille, la distance entre chacun ou leur nombre. • Vérifier la spécificité des fragments sélectionnés afin d´éviter les hybridations croisées.

Sélection de sondes - XXfrag • http://ribosome.genopole-lille.fr/fr/fragments/ Publication : C. Hubans, J-P. Kerkaert, M-P. Vanhoecke, “XX_FRAG : Design of cDNA sequences for microarrays-application to CGH”, ECCB’2002 European Conference on Computational Biology, Saarbrucken, Germany, Oct 2002

Sélection de clones • Sélection de clones : Sélection de clones d’intérêt dans la banque du CNS • – Application à la maladie d’Alzheimer (IPL) Principe : la sélection de clones spécifiques est basée sur la recherche de similarité (BLAST) entre les séquences de clones et les séquences des loci d’intérêt. Programme : • Entrée : liste des identifiants de loci dans LocusLink • Choix des paramètres : - paramètres de Blast - seuil de similarité - seuil de spécificité Programmes complémentaires : • Recherche de similarité entre loci • Annotation des séquences choisies à partir des données fonctionnelles issues de Gene Ontology

Loci d’intérêt Annotation des clones par le CNS Clone-ORFs pair (A) Sélection des clones : BLAST des séquences de clones contre la banque de loci (seuil de similarité de 50%) Détermination des couples Clone-ORFs (B) Couples Clone-ORFs trouvés par BLAST (B) Couples Clone-ORFs communs CNS+BLAST (A) + (B) Couples Clone-ORFs trouvés uniquement dans le fichier d’annotation du CNS (A) BLAST sans seuil de similarité Couples Clone-ORFs non trouvés Couples Clone-ORFs trouvés par BLAST Spécificité : BLAST entre les séquences de clones sélectionnés et les séquences d’ARNm humains (Seuil de similarité à 30%) Couples Clone-ORFs spécifiques Couples Clone-ORFs non spécifiques

Sélection de clones http://ribosome.genopole-lille.fr/fr/clones/select_clone_form.html Publication : Lambert JC, Testa T, Cognat V, Soula J, Hot D, Lemoine Y, Gaypay G, Amouyel P., “Interest and limitation of public databases for microarray design: a critical approach of gene predictions” The Pharmacogenomics Journal, in press.

Sélection d’oligos • Sélection d’oligos : Aide à la sélection d’oligo chez Qiagen et MWG – Application à la maladie d’Alzheimer (IPL) Principe : les oligos d’intérêts sont sélectionnés dans la liste d’oligo de fournisseurs (Qiagen & MWG) à partir d’une liste d’identifiants de loci LocusLink ou de séquences Refseq et/ou Genbank http://ribosome.genopole-lille.fr/fr/oligo/

Sélection de primers - FindExpress • FindExpress : Sélection de primers (octamères) dans des amplicons • (Laboratoire des Biopuces – IPL) • Objectifs : • Recherche d’un minimum d’octamères • spécifiques aux régions amplifiées par PCR • ne matchant pas l’ADN ribosomique • - Couvrant tous les amplicons Gènes Primers PCR Recherche des amplicons Recherche de tous les octamères Oter ceux matchant ADN ribosomique Recherche du minimum d’octamères permettant de recouvrir tous les amplicons http://ribosome.genopole-lille.fr/fr/logiciel/findexpress/

Outil de positionnement des sondes • Outil pour le positionnement des sondes : • - Laboratoire des Biopuces - IPL • Cet outil permet : • 1. De visualiser le positionnement des sondes sur la puce à partir du schéma des microplaques et des paramètres de spotting • 2. De définir le contenu des microplaques à partir du schéma voulu de la puce (position spécifique de sondes et paramètres de spotting) • Outil développé en java. • Installation locale dans les laboratoires • Robot étudié : GMS 417 Affymetrix

j i Lame u Micro plaque Contrôle du schéma de spottagePositionnement du problème • Le Robot prend les gènes • dans les puits de la microplaque • et les dépose sur la lame. • on veut prévoir ou fixer d’avance la position de certains gènes sur la lame

Aide au design de pucesFonctionnalités • Placement de gènes à des points particuliers • Calcul de la microplaque associée au schéma

Traitement et analyse de données Normalisation Extraction des connaissances (Data mining) Clustering Règles d’association

Normalisation des données • Liens vers des outils de Normalisation disponibles sur le web à partir du site de la génopole • Développement d’un outil permettant : • Correction des données • Plusieurs méthodes de normalisation : • (Régression linéaire uniforme, Lowess, Normalisation de Chen, Newton, Chursap) • Représentation graphique • Normalisation par secteur • Analyse des réplicats (lame, spots) •  Utilisation de R (Outil Statistique présentant un module « statistiques pour biopuces ») • Développement d’une interface graphique

CIB : Centre Intégré de Bioinformatique