MISE EN PLACE D’UN PIPELINE DE TRAITEMENT

DESS Bioinformatique (2003-2004) MISE EN PLACE D’UN PIPELINE DE TRAITEMENT DE SEQUENCES ISSUES DE BANQUES ENRICHIES EN SEQUENCES MICROSATELLITES ASSOCIE A UNE BASE DE DONNEES Alexis DEREEPER Université Montpellier II CIRAD – Programme Biotrop Encadrement : Jean-François Rami, Claire Billot, Manuel Ruiz

PLAN I - Introduction II – Contexte biologique III – Mise en place du pipeline IV – Base de données V – Interface web VI – Conclusions et perspectives

réalisation de banques enrichies en séquences microsatellites séquençage Analyse des séquences Besoin d’un pipeline de traitement automatique Obtention de marqueurs microsatellites exploitables I - Introduction • CIRAD : Organisme scientifique français spécialisé en recherche agronomique appliquée aux régions chaudes. • Programme BIOTROP : Utilisation de la biologie moléculaire pour étudier la diversité génétique des plantes (marqueurs moléculaires, cartographie)

polymorphisme multiallélique détecté par PCR puis électrophorèse du locus (microsat + régions flanquantes) Plante B Plante A (GT)8 (GT)12 Primer 1 Primer1 GTGTGTGTGTGTGTGT CACACACACACACACA GTGTGTGTGTGTGTGTGTGTGTGT CACACACACACACACACACACACA Primer 2 amplification PCR GTGTGTGTGTGTGTGTGTGTGTGT CACACACACACACACACACACACA GTGTGTGTGTGTGTGT CACACACACACACACA A B 2 allèles II – Contexte biologique Microsatellite : courte séquence de motifs d’ADN répétés en tandem Unité de répétition variant de 1 à 6 pb : (CA)n, (CTT)n…

RsaI RsaI RsaI GTGTGTGT TGTGTGTG Digestion enzymatique par RsaI GTGTGTGT TGTGTGTG Ligation d’adaptateurs et PCR Dénaturation et hybridation avec un oligonucléotide biotinylé TGTGTGTG GTGTGTGT TGTGTGTG GTGTGTGT TGTGTGTG Capture du microsatellite avec un complexe avidine/bille magnétique GTGTGTGT TGTGTGTG aimant Lavage, élution puis amplification par PCR GTGTGTGT GTGTGTGT TGTGTGTG TGTGTGTG GTGTGTGT TGTGTGTG TGTGTGTG GTGTGTGT clonage REALISATION DE BANQUES

CULTURE + SELECTION Obtention d’une banque enrichie en séquences microsatellites SEQUENCAGE amorce forward GTGTGTGTTGTGTGTG amorce reverse ANALYSE DES SEQUENCES CHAÎNE DE TRAITEMENT Gène de la β-galactosidase Gène de résistance à un antibiotique Chromatogrammes de séquence

Base-calling Séquences d’ADN brute Élimination du vecteur et des adaptateurs Séquences d’ADN nettoyée Digestion enzymatique in silico + recherche de microsatellites Fragments de digestion ayant un microsatellite Clustering, contigage Séquences consensus Définition d’amorces d’amplification Couples d’amorces de PCR III - Mise en place du pipeline Chaîne de traitement : les différentes étapes Chromatogrammes de séquence

Sauvegarde automatique des résultats en base de données à chaque étape du pipeline traçabilité des séquences Interfaçage du pipeline et de la base de données Objectifs Mettre en place un pipeline = chaîne de traitement reliant plusieurs logiciels afin d’effectuer une tâche • Outil convivial et paramétrable : • Possibilité pour l’utilisateur de choisir les étapes à effectuer • Possibilité d’une double digestion

Chromatogrammes de séquence Phred.pm Séquences d’ADN brute Modélisation Un module Perl par étape, par logiciel utilisé

Fichier séquence .seq >DW0AI001ZA05FM1.SCF TATCATATGGGACTGGCCGAGTGCATCTCCGCGC Fichier qualité .qual >DW0AI001ZA02RM1.SCF 6 6 9 6 10 12 16 11 19 9 9 9 19 19 22 22 29 29 35 34 34 34 37 19 Base-calling : module Phred.pm

Lucy.pm Séquences d’ADN nettoyée Modélisation Un module Perl par étape, par logiciel utilisé Chromatogrammes de séquence Phred.pm Séquences d’ADN brute

Nettoyage des séquences : module Lucy.pm Lucy : Détection de la position du vecteur Détection des régions de mauvaise qualité >DW0AI001ZA05FM1.SCF 0 0 0 113 442 TATCATATGGGACTGGCCGAGTGCATCTCCGCGCAGGCCG Méthode retrait_vecteur(): Retrait du vecteur en fonction de la sortie de Lucy

Chromatogrammes de séquence Séquences d’ADN brute Lucy.pm Séquences d’ADN nettoyée Digestion.pm + Select_ssr.pm Fragments de digestion ayant un microsatellite Modélisation Un module Perl par étape, par logiciel utilisé Phred.pm

Sélection des fragments contenant un microsatellite: module Select_ssr.pm Utilisation d’un script de recherche de microsatellites >DW0AI001ZA05FM1.0 0 2 ac 8 51 64 330 GCACATATGTGAAGTCCATTCAGTGGCCACTGGAGCAAGGT AACCAACGACACACACACACACACAGGT Digestion enzymatique : module Digestion.pm Utilisation du module Bioperl Bio::Tools::RestrictionEnzyme Utilisation de la fonction cut_seq() @fragment = $re1->cut_seq($seq);

Chromatogrammes de séquence Séquences d’ADN brute Lucy.pm Séquences d’ADN nettoyée Stackpack.pm, Cap3.pm Séquences consensus Modélisation Un module Perl par étape, par logiciel utilisé Phred.pm Digestion.pm + Select_ssr.pm Fragments de digestion ayant un microsatellite

Clustering : module Stackpack.pm Clustering : premier regroupement des séquences selon leur similarité relative Stackpack : pipeline de contigage analyse clustering contigage craw phrap d2_cluster Contigage : module Stackpack.pm ou Cap3.pm Alignement des séquences regroupées au sein d’un cluster forward reverse consensus Séquences consensus

Chromatogrammes de séquence Séquences d’ADN brute Lucy.pm Base de données Séquences d’ADN nettoyée DataBase.pm Requêtes Primer3.pm Couples d’amorces de PCR Modélisation Un module Perl par étape, par logiciel utilisé Phred.pm Digestion.pm + Select_ssr.pm Fragments de digestion ayant un microsatellite Stackpack.pm, Cap3.pm Séquences consensus

Définition d’amorces : module Primer3.pm Utilisation du logiciel ePrimer3 de EMBOSS Cible d’amplification : positions du microsatellite sur le consensus # Start Len Tm GC% Sequence 1 PRODUCT SIZE: 116 FORWARD PRIMER 26 20 54.65 55.00 GTACCCTGTGTCTCTCCTTG REVERSE PRIMER 122 20 55.24 50.00 TGGTATGAAGGGTGTAGCTC

IV – Base de données Existence d’une base de données renfermant des informations communes: séquence brute, séquence nettoyée, contigs… Modification par ajout de nouvelles tables spécifiques

Projet + nom_projet + date_creation + description 1 1..* Seq_init + nom_seq + source_fichier_chromato + sequence_brute + sequence_qualite + sequence_nettoyee + qual_nettoyee + nom_espece Cluster_element + Id_element + nom_element + sequence_consensus + num_cluster + nom_contig + longueur + align_phrap + res_align + align_craw + longest 1 A_pour_origine 1..* Seq_dig + nom_seq_dig + sequence_dig + qual_dig + enzyme + pres_micro Primer + Id_primer + primer_compt + forw_nom + forw_seq + forw_temp + forw_size + rev_nom + rev_seq + rev_temp + rev_size + prod_size + prod_start + prod_end + valide + forw_infosblast + rev_infosblast 0..1 1..* 0..* Microsat + Id_microsat + ssr_num + ssr_type + ssr + size + start + end 0..* Possède 0..* Possède 0..* Est_amplifié_par 1..* 0..*

L’interface doit permettre de : • Paramétrer le pipeline • Lancer le pipeline • Visualiser directement les résultats du pipeline • Consulter les résultats d’un projet stockés en base de données V – Interface web Nécessité d’une interface web commune au pipeline et à la base de données • Manipulation de pages web par l’utilisation de scripts CGI • Utilisation de feuilles de styles

Interface web Consulter la base de données « include » Se connecter sur l’accueil S’identifier biologiste Lancer le pipeline « include » Choisir les étapes à effectuer « include » Paramétrer les différentes étapes « extend » Faire un paramétrage avancé de Cap3 Créer un nouvel utilisateur de la BD Administrateur

VI – Conclusions et perspectives • Découverte du langage Perl : Perl objet, BioPerl, Perl CGI • Découverte d’un nouveau SGBD : MySQL Outil performant de traitement de séquences issues des banques microsatellites • Possibilité pour l’utilisateur de choisir les étapes à effectuer. Possibilité de paramétrer chacune des étapes. Enregistrement des résultats en base de données à chaque étape Interface web conviviale et simple d’utilisation permettant de lancer le pipeline ou de consulter les résultats

Plusieurs perspectives sont envisageables pour la suite : • Effectuer un blast d’une séquence donnée que ce soit contre GenBank ou contre des banques de séquences des utilisateurs Créer une sortie automatique d’un fichier de soumission pour l’enregistrement direct dans GenBank. • Un téléchargement des chromatogrammes sur le serveur pourrait être intéressant pour l’utilisateur au moment où il fournit le chemin de ses chromatogrammes. Fournir un fichier Excel répertoriant l’ensemble des couples d’amorces validés à commander. Enrichir l’interface Web de consultation des résultats par de nouvelles pages d’interrogations de la base de données

Merci de votre attention Merci à Jean-François Rami, Claire Billot, Manuel Ruiz, Pierre Larmande, pour m’avoir accueilli et encadré au CIRAD Merci aux intervenants du DESS pour les cours qu’ils ont enseignés

MISE EN PLACE D’UN PIPELINE DE TRAITEMENT

MISE EN PLACE D’UN PIPELINE DE TRAITEMENT

Presentation Transcript

Rappel sur le traitement de la goutte et regard neuf sur l’hyperuricémie

Traitement chirurgical du pneumothorax spontané

Quand et comment commencer le traitement ARV

Exigences et maintenance d’une installation de traitement d’air

Hépatites chroniques B et C: épidémiologie et traitement

LE DIABETE (2° partie)

HÉMORRAGIE SOUS ARACHNOIDIENNE

DEFINITIONS TRAITEMENT DE SURFACES

Traitement par ondes de choc extracorporelles.

LES COMPLICATIONS AIGUËS DU DABETE

Les antipsychotiques atypiques dans le traitement de la schizophrénie et du trouble bipolaire

Pipeline Hazards

L’astrophotographie à l’APN reflex

VIH, Mise au point 2011

ETAT DE MAL EPILEPTIQUE TRAITEMENT SYMPTOMATIQUE

Traitement de la dependence a la nicotine et a l ’ alcool

Indications, schémas de traitement et effets secondaires des ARV chez l’adulte

Data-pipeline using ALSPAC data

Gestion de la co-traitance Mise en place de l’interconnexion DUDE - Parcours 3

La mise en place d’un système d’accès rapide (S.A.R.)

Mise -en-scène (pronounced “ meez-ahn-sen ”)

Pigging