Les

Les -omiques ENSPS 2 TIC-Santé 2012-2013

Plan • Introduction: • La définition des –omiques et leurs apparitions en Biologie • L’analyse de l’information dans les données • Les génomes : de la cartographie au séquençage, • Les ARN messagers : de l’hybridation au DNA chip, • La protéomique : Du gel bidimensionnel à la spectrométrie de masse. L’interactome. • La métabolomique (l’analyse des métabolites)

introduction

les « omes » les souris Annotation (syntaxique et fonctionnelle) ADN • Algorithmique sur les mots • Statistique ARN DNA-Chips Transcriptome régulation • Trait. signal, statistique • Analyse de données Protéines Gel 2D, spectro de masse Protéome • Analyse d’images, statistique • Algorithmique enzymes A T P N O O O N O N O P O O P O P Métabolome Interactome N N O O O O O métabolisme • Représentation des connaissances Génome • Simulation, modélisation • Algorithmique sur les graphes

The -omics Fromreductionnism To Holism ...

SystemsThinking Items Structural Biology MacroMolecules Bioenergy Energy Molecular Biology Metabolism Information Matter Cells Cell Biology Physiology Organs Increaselevel of integration Organology Organisms 1968 General System Theory Ludwig von Bertalanffy Anthropology Society Sociology 1942-1953 Macy Meeting McCulloch Turing Wiener Von Newman Functions

Vision temporelle et forces structurantes

plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

• Annotation syntaxique zones d ’intérêt (features) • CDS ’s, ARNs • Signaux de régulation • Repeats... etc détection par contenu objets « individuels » • Annotation fonctionnelle attribution de « fonction » EMBL • produits des gènes • familles d ’opérateurs généralement par similarité • Annotation relationnelle relations entre les entités relations niveaux d’annotation d’un génome séquence ADN brute • voies métaboliques • réseaux d ’intéractions géniques

............ CGA CTA GGA TGG CGG ........ phase 1 phase 1 A,C,G,T ............ CGACTA GGA TGGCGG ........ Apprentissage i ............ AL G WA ........ k phase 1 phase 2 Pcodant start stop w phase 3 annotation syntaxique : recherche de gènes ............CGACTAGGATGGCGG........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d ’usage du code) P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov P(X/X1...Xk) Matrice(s) de transitions • Utilisations

Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal) annotation syntaxique : recherche de gènes • Procaryotes GenMark (Borodovski) Glimmer (Salzberg)

• structuration exons/introns • régions 5 ’ et 3 ’ UTR • exons (chaînes de Markov, protéines, ESTs) • détection • jonctions (MPP, Res. neurones) 2 Phases annotation syntaxique : recherche de gènes • Eucaryotes • usage du code variable (ex: isochores chez les mammifères) • assemblage (HMM, DAG)

1 3 6 4 16 2 6 6 2 6 65 1 2 p=1/10 p=1/6 p(6)=2/6 p=1/10 Modèle biologique exon1 exon2 GeneScan (Burge et al.) annotation syntaxique : assemblage des exons Modèle mathématique : modèle de Markov à états cachés (H.M.M) 1 3 6 4 1 6 2 6 6 2 6 6 5 1 2

procaryotes : OK (> 90%) • recherche de gènes Repeats, µ-sat: OK RBS, opérateurs : ? promoteurs : difficile (même pour les procaryotes) annotation syntaxique : petit résumé eucaryotes : partiel (25 à 60%) • recherche d ’ARN : tARN, rARN, snARN : ? • recherche de signaux

• rôle biochimique • rôle physiologique • mécanisme • propagation des « erreurs » • « orphelins » annotation fonctionnelle in silico ? « FONCTION » ? • par similarité de séquence (criblage de banques) • par le contexte génomique (genomique comparative)

Emploi S1 S1 Global S2 S2 Needelmann-Wunsch relativement rare Semi Global S1 recherche d ’homologues End-gaps free S2 Local Smith-Waterman recherche de similarités (locales) Heuristiques Prog. Dynamique P R E M I E R PR E - M I E R D E R N I E R D - E RN I E R Matrice de substitutions Sub(M,N) Ins/Del annotation fonctionnelle in silico : comparaison de séquences 3 familles d ’alignements (2 à 2) de séquences Fasta Blast

annotation fonctionnelle in silico : prédiction prédiction de structure / propriété à partir de la séquence (nucléique/protéique) • - prédiction de structures secondaires • passages transmembranaires • localisation cellulaire • etc...

modèle statistique V S modelV P(S | modelV) P(S | modelF) F ? modelF -2- règle de décision Bayes -1- apprentissage estimation des paramètres des modèles à partir d’exemples connus P(modelV | S) = P(S | modelV) . P(modelV) P(S) P(S|modelV) . P(modelV) + P(S|modelF) . P(modelF) réalité V F V V VP FP prédiction F F FN VN ensemble test ≠ apprentissage matrice de confusion prédiction : méthodologie Apprentissage à partir d’exemples -3- validation -> sensibilité, sélectivité, précision, coeff de correl.

annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux

conditions expérimentales données brutes données traitées données interprétées I(r, t) log(Ir/Ig) modele statistique statistique exploratoire I(g, t) • analyses factorielles • clustering (HC, SOM, ...) • distribution de I ? • - distribution des rapports données de transcriptome : analyse des résultats Ir/Ig > s significatif ?

g1 g2 g3 g4 g5 ... individus statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes)

caractères 1 0 0 1 0 0 0 1 0 0 0 1 statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) up down neutral g1 g2 g3 g4 g5 ... Q1 individus up/down Regulé ?

caractères statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) up down neutral pres. abs. g1 g2 g3 g4 g5 ... 1 0 0 1 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 Q1 Q2 Qi individus up/down Regulé ? Krebs ? promoteur ? -> analyse du lien entre différentes sources d’information

2 y = x chi2 dépendance ≠ corrélation x g1 g2 g3 Reg-up Krebs-present Reg-up gi Prom-absent statistique exploratoire : l’ACM analyse du lien entre les individus / entre les caractères Donner une représentation (plane) vérifiant :

Q1-neutral Reg-up Krebs-non Krebs-oui Q1-down statistique exploratoire : l’ACM - analyse de la proximité des caractères

- identification des invidus concernés Q1-neutral Reg-up statistique exploratoire : l’ACM - analyse de la proximité des caractères Krebs-non Krebs-oui Q1-down - suggestion d’un lien -> analyse exploratoire - doit etre suivi d’un test statistique ( -> chi2)

annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats inférence de réseaux

1 1 3 2 3 2 dynamique : équations différentielles linéaires par morceaux APPROCHES quantitatives qualitatives Valeurs des paramètres ? équations différentielles réseaux booléens formalisme logique modélisation de réseaux géniques

1 1 3 2 3 2 x1 Equations différentielles lineaires par morceaux . 1 x1 = k12. s+(x2, 12) - 1x1 . 0 x2 = k213. s -(x1, 21) . s -(x3, 23) - 2x2 x2 . 12 x3 = k31. s -(x1, 31) + k33. s -(x3, 33) - 3x3 seuil modélisation de réseaux géniques

1 ? 3 2 Experience Approche bioinformatique knockout disruption network réseaux bayésiens dna-chip model checking inférence de réseaux géniques

? A A A A B B B B C D C D C D C D A B C D disruption network

BD métaboliques (KEGG) + colocalisation de gènes (microsynténies) Annotation fonctionnelle expérimentale : métabolisme

menD ytfD menE menB menH menF B.subtilis E. coli menD menE menC menB menH menF Menaquinone biosynthesis Chorismate Le contexte génomique suggère qu’YtfD est l’orthologue de MenC cad une o-succinyl-CoA synthase l’activité enzymatique a été confirmée expérimentalement Unexpected divergence of enzyme function and sequence: “N-acylamino Acid Racemase” is o-Succinylbenzoate Synthase Palmer et al, Biochemistry, 38 : 4252-4258, 1999 Menaquinone métabolisme et colocalisation : exemple Similarité: MenC (E.coli) / YtfD (B.subtilis) très faible YtfD: initialement identifiée comme une N-acylamino acid racemase

{composés, réactions, pathways} nouveau génome (protéome) - réseaux de Petri - matrice stochiométrique - transfert d’atomes • ab initio la reconstruction métabolique • par homologie

Organisme A Organisme B ? la reconstruction métabolique : par homologie

Organisme A Organisme B orthologues la reconstruction métabolique : par homologie

Entrée : {réactions} (KEGG) composé « source » composé « puit » Sortie : sous-réseaux « équilibrés » : External compounds (ATP, ADP, NADP, water ...) Source Sink la reconstruction métabolique : ab initio

Internal fluxes External fluxes External fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] Compound Internal flux la reconstruction métabolique : ab initio Matrice Stoichiométrique

Internal fluxes External fluxes External fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] Compound Internal flux la reconstruction métabolique : ab initio Matrice Stoichiométrique S . v = 0

proteome complet • compartiment cellulaire identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Annotation fonctionnelle expérimentale : protéomique problématique : identification de protéines Nuc

Annotation fonctionnelle expérimentale : protéomique • proteome complet • compartiment cellulaire problématique : identification de protéines identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Nuc

base • modèle de données (données structurées) • - gestion des inconsistences • - existence d’un SGBD • requètes complexes • banque • fichier « à plat » • syntaxe définie • sémantique floue (pas de modèle explicite) • - requètes simples LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 modèle de données SGBD données Echange Stockage / Requetage des banques et des bases banques de données versus bases de données

banque • fichier « à plat » • syntaxe définie • sémantique floue (pas de modèle explicite) • - requètes simples LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 Echange Stockage / Requetage des banques et des bases banques de données versus bases de données • base • modèle de données (données structurées) • - gestion des inconsistences • - existence d’un SGBD • requètes complexes modèle de données SGBD données

SwissProt assemblage moléculaire ID DP3B_ECOLI STANDARD; PRT; 366 AA. DE DNA POLYMERASE III, BETA CHAIN (EC 2.7.7.7). ... CC -!- SUBUNIT: CONTAINS A CORE (COMPOSED OF ALPHA, EPSILON, AND THETA CHAINS) THAT ASSOCIATES WITH A TAU SUBUNIT WHICH ALLOW THE CORE DIMERIZATION TO FORM THE POLIII' COMPLEX. POLIII' ASSOCIATES WITH THE GAMMA COMPLEX (COMPOSED OF CHAINS GAMMA, DELTA, DELTA', PSI, AND CHI) AND WITH THE BETA CHAIN. THE FINAL COMPOSITION OF THE COMPLEX IS: (ALPHA,EPSILON,THETA)[2]-TAU[2]-(GAMMA,DELTA,DELTA', PSI,CHI)[2]-BETA[4]. THE BETA CHAIN IS AN HOMODIMER, WHEN NOT ASSOCIATED WITH THE OTHER COMPONENTS. requêtes, croisements, ... , traitements importance d’un modèle explicite Constat : Une grande partie des informations présentes dans les banques de données n’est pas facilement exploitable il faut expliciter les connaissances pour les rendre : - interprétables (par une machine) - cohérentes - échangeables

modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques les étapes de la création d’une base de données

Les - omiques

Les - omiques

Presentation Transcript

Les métiers = Les professions

LES RECETTES LES DEPENSES

LES

LES

Les - omiques

LES VÊTEMENTS/LES FRINGUES

Les Produits Les Tests Et Les Témoignages

Les atomes, les éléments et les composés

LES ŒUFS LES OVOPRODUITS

Les

Les relatives, les accords, et les pronoms

LES

Les Classes Les Matières

Les astéroïdes, les comètes, les météores, les météorites et les aurores polaires

Les Jours, Les Mois, et Les Saisons

Les articles, les adjectives

Les invertébrés – Les arthropodes

Les acides, les bases et les sels

LES MÉTIERS, LES PLANTES ET LES ANIMAUX

LES

Les acides, les bases et les sels