250 likes | 385 Views
Gscope. L’outil bio-informatique pour la génomique structurale. Gscope pour le biologiste. Automatise la cascade des programmes Crée et gère les données Les visualise R echerche de cibles à l ’échelle génomique Annotation ... Gscope est aussi une boîte à outils bio-informatique.
E N D
Gscope L’outil bio-informatique pour la génomique structurale
Gscope pour le biologiste • Automatise la cascade des programmes • Crée et gère les données • Les visualise • Recherche de cibles à l ’échelle génomique • Annotation • ... Gscope est aussi une boîte à outils bio-informatique
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool
Séquences ? • un génome fraîchement séquencé (P.abyssi) • tous les génomes ‘petits’ existants (V.cholera…) • un groupe fonctionnel (TFIIH) • une famille de protéines (synthétases, NR, ERco) • un ...ome (ribosome, péroxisome) • une séquence (la vôtre). • …
Deux regards • Structural … je veux des cristaux ! • ORF quality(overlap, validation du codon start, …) • organisation en domaines ( local vs global, ... ) • productivité (codon usage vs coli or yeast, hydrophobicité) • Phylogénomique … qui suis-je, d’où je viens ? • annotation, recherche de fonction • bilan présence/absence dans autres organismes, transferts horizontaux, cluster maintenance • bilan de paralogie • bilan phylogénomique • etc.
Lecture de données formats TFA, EMBL, GenBank, texte,… liste de accession numbers Détermination des ORFs Glimmer, tRNA_Scan Création des séq nuc et prot Analyse ADN composition, codon usage, biais GC, ShineDalgarno BlastP, TBlastN, BlastX SwissProt, TrEmbl, PDB Human, CompleteGenomes … Ballast, DbClustal, LMS et alignements multiples avec test de qualité BestDefinition +Secator, Ordali >> groupes, domaines Phylogénie Intègration et automatisationdes outils existants
Séquence Orthologues blast, alignements présence/absence paralogues Info structurale PDB codon adaptation index hydrophobicité Phylogénie folle fonction Coloration/Liste
Ce qu’il faut pour démarrer ... • une liste de séquences • accession numbers • fichiers existants • un fichier ADN (génome complet ou non) • une suite de contigs • un fichier GenBank avec ADN et protéome • ... Gscope lit, convertit, vérifie, recherche, range.
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool ORF quality
ORF qualityla séquence est-elle bien définie ?(existe, start, stop, frame-shift) • protéome connu ou Glimmer, tRNAscan • overlap, biais en composition • beaucoup ou pas d’orthologues (Blastp, Tblastn) • validité du codon start (Secator, DbClustal) • ... • mauvais splicing
Codon start 1/3 Validité du codon start beaucoup d ’erreurs dans les banques • overlap • peu probable • sauf overlap de un ( TAAATG > TAATG ) • alignements des codons start • DbClustal le permet (méthode globale) • pour les séquences du groupe Secator en particulier • s ’il y en a suffisamment • … si en plus apparaît la séquence de Shine-Dalgarno !
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Production
Production • Codon adaptation index vs E.coli or S.cerevisiae • Hydrophobicité, hélices transmembranaires • Orthologues dans la PDB • existence • fragments • Mise en évidence de domaines • par l ’alignement • si opposition local (blast) - global (DbClustal) • … à suivre
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Phylogenomic
Phylogénomique • Bilan de présence/absence dans les génomes complets • TBlastN • Phylo folle • Biais en GC • Arbre phylogénétique non conforme (pertes ou transferts)
Un exemple de protocole d ’analysemis au point par Marcsur ERco pour mettre en évidence les domaines structuraux • Faire un alignement avec toutes les séquences du blastp • Définir les groupes avec Secator • Choisir un représentant par groupe • Puis • Rechercher les domaines existants (ProDom par exemple) • PDB • Prédictions de structures secondaires, profil hydrophobicité, … • Sites de coupures aux protéases (trypsine, …) • VRP • information bibliographique (fonction, mutants, …) à l ’aide de Gscope, qui l ’automatisera bientôt ...
Perspectives • Eucaryotes supérieurs • mauvais épissage • intégration des Est • étude promoteurs • Informations sur les domaines et motifs • Ballast • Correlator • Domainol • data mining • Utilisation • protocole automatique de recherche de cibles (Shankar) • RELACS (RELational Alignement of Complete Sequences) • De mieux en mieux • Web … mais ça marche déjà !!!