590 likes | 787 Views
Les - omiques. ENSPS 2 TIC-Santé 2012-2013. Plan. Introduction: La définition des – omiques et leurs apparitions en Biologie L’analyse de l’information dans les données Les génomes : de la cartographie au séquençage, Les ARN messagers : de l’hybridation au DNA chip,
E N D
Les -omiques ENSPS 2 TIC-Santé 2012-2013
Plan • Introduction: • La définition des –omiques et leurs apparitions en Biologie • L’analyse de l’information dans les données • Les génomes : de la cartographie au séquençage, • Les ARN messagers : de l’hybridation au DNA chip, • La protéomique : Du gel bidimensionnel à la spectrométrie de masse. L’interactome. • La métabolomique (l’analyse des métabolites)
les « omes » les souris Annotation (syntaxique et fonctionnelle) ADN • Algorithmique sur les mots • Statistique ARN DNA-Chips Transcriptome régulation • Trait. signal, statistique • Analyse de données Protéines Gel 2D, spectro de masse Protéome • Analyse d’images, statistique • Algorithmique enzymes A T P N O O O N O N O P O O P O P Métabolome Interactome N N O O O O O métabolisme • Représentation des connaissances Génome • Simulation, modélisation • Algorithmique sur les graphes
The -omics Fromreductionnism To Holism ...
SystemsThinking Items Structural Biology MacroMolecules Bioenergy Energy Molecular Biology Metabolism Information Matter Cells Cell Biology Physiology Organs Increaselevel of integration Organology Organisms 1968 General System Theory Ludwig von Bertalanffy Anthropology Society Sociology 1942-1953 Macy Meeting McCulloch Turing Wiener Von Newman Functions
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
• Annotation syntaxique zones d ’intérêt (features) • CDS ’s, ARNs • Signaux de régulation • Repeats... etc détection par contenu objets « individuels » • Annotation fonctionnelle attribution de « fonction » EMBL • produits des gènes • familles d ’opérateurs généralement par similarité • Annotation relationnelle relations entre les entités relations niveaux d’annotation d’un génome séquence ADN brute • voies métaboliques • réseaux d ’intéractions géniques
............ CGA CTA GGA TGG CGG ........ phase 1 phase 1 A,C,G,T ............ CGACTA GGA TGGCGG ........ Apprentissage i ............ AL G WA ........ k phase 1 phase 2 Pcodant start stop w phase 3 annotation syntaxique : recherche de gènes ............CGACTAGGATGGCGG........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d ’usage du code) P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov P(X/X1...Xk) Matrice(s) de transitions • Utilisations
Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal) annotation syntaxique : recherche de gènes • Procaryotes GenMark (Borodovski) Glimmer (Salzberg)
• structuration exons/introns • régions 5 ’ et 3 ’ UTR • exons (chaînes de Markov, protéines, ESTs) • détection • jonctions (MPP, Res. neurones) 2 Phases annotation syntaxique : recherche de gènes • Eucaryotes • usage du code variable (ex: isochores chez les mammifères) • assemblage (HMM, DAG)
1 3 6 4 16 2 6 6 2 6 65 1 2 p=1/10 p=1/6 p(6)=2/6 p=1/10 Modèle biologique exon1 exon2 GeneScan (Burge et al.) annotation syntaxique : assemblage des exons Modèle mathématique : modèle de Markov à états cachés (H.M.M) 1 3 6 4 1 6 2 6 6 2 6 6 5 1 2
procaryotes : OK (> 90%) • recherche de gènes Repeats, µ-sat: OK RBS, opérateurs : ? promoteurs : difficile (même pour les procaryotes) annotation syntaxique : petit résumé eucaryotes : partiel (25 à 60%) • recherche d ’ARN : tARN, rARN, snARN : ? • recherche de signaux
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
• rôle biochimique • rôle physiologique • mécanisme • propagation des « erreurs » • « orphelins » annotation fonctionnelle in silico ? « FONCTION » ? • par similarité de séquence (criblage de banques) • par le contexte génomique (genomique comparative)
Emploi S1 S1 Global S2 S2 Needelmann-Wunsch relativement rare Semi Global S1 recherche d ’homologues End-gaps free S2 Local Smith-Waterman recherche de similarités (locales) Heuristiques Prog. Dynamique P R E M I E R PR E - M I E R D E R N I E R D - E RN I E R Matrice de substitutions Sub(M,N) Ins/Del annotation fonctionnelle in silico : comparaison de séquences 3 familles d ’alignements (2 à 2) de séquences Fasta Blast
annotation fonctionnelle in silico : prédiction prédiction de structure / propriété à partir de la séquence (nucléique/protéique) • - prédiction de structures secondaires • passages transmembranaires • localisation cellulaire • etc...
modèle statistique V S modelV P(S | modelV) P(S | modelF) F ? modelF -2- règle de décision Bayes -1- apprentissage estimation des paramètres des modèles à partir d’exemples connus P(modelV | S) = P(S | modelV) . P(modelV) P(S) P(S|modelV) . P(modelV) + P(S|modelF) . P(modelF) réalité V F V V VP FP prédiction F F FN VN ensemble test ≠ apprentissage matrice de confusion prédiction : méthodologie Apprentissage à partir d’exemples -3- validation -> sensibilité, sélectivité, précision, coeff de correl.
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux
annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux
conditions expérimentales données brutes données traitées données interprétées I(r, t) log(Ir/Ig) modele statistique statistique exploratoire I(g, t) • analyses factorielles • clustering (HC, SOM, ...) • distribution de I ? • - distribution des rapports données de transcriptome : analyse des résultats Ir/Ig > s significatif ?
g1 g2 g3 g4 g5 ... individus statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes)
caractères 1 0 0 1 0 0 0 1 0 0 0 1 statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) up down neutral g1 g2 g3 g4 g5 ... Q1 individus up/down Regulé ?
caractères statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) up down neutral pres. abs. g1 g2 g3 g4 g5 ... 1 0 0 1 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 Q1 Q2 Qi individus up/down Regulé ? Krebs ? promoteur ? -> analyse du lien entre différentes sources d’information
2 y = x chi2 dépendance ≠ corrélation x g1 g2 g3 Reg-up Krebs-present Reg-up gi Prom-absent statistique exploratoire : l’ACM analyse du lien entre les individus / entre les caractères Donner une représentation (plane) vérifiant :
Q1-neutral Reg-up Krebs-non Krebs-oui Q1-down statistique exploratoire : l’ACM - analyse de la proximité des caractères
- identification des invidus concernés Q1-neutral Reg-up statistique exploratoire : l’ACM - analyse de la proximité des caractères Krebs-non Krebs-oui Q1-down - suggestion d’un lien -> analyse exploratoire - doit etre suivi d’un test statistique ( -> chi2)
annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats inférence de réseaux
1 1 3 2 3 2 dynamique : équations différentielles linéaires par morceaux APPROCHES quantitatives qualitatives Valeurs des paramètres ? équations différentielles réseaux booléens formalisme logique modélisation de réseaux géniques
1 1 3 2 3 2 x1 Equations différentielles lineaires par morceaux . 1 x1 = k12. s+(x2, 12) - 1x1 . 0 x2 = k213. s -(x1, 21) . s -(x3, 23) - 2x2 x2 . 12 x3 = k31. s -(x1, 31) + k33. s -(x3, 33) - 3x3 seuil modélisation de réseaux géniques
1 ? 3 2 Experience Approche bioinformatique knockout disruption network réseaux bayésiens dna-chip model checking inférence de réseaux géniques
? A A A A B B B B C D C D C D C D A B C D disruption network
BD métaboliques (KEGG) + colocalisation de gènes (microsynténies) Annotation fonctionnelle expérimentale : métabolisme
menD ytfD menE menB menH menF B.subtilis E. coli menD menE menC menB menH menF Menaquinone biosynthesis Chorismate Le contexte génomique suggère qu’YtfD est l’orthologue de MenC cad une o-succinyl-CoA synthase l’activité enzymatique a été confirmée expérimentalement Unexpected divergence of enzyme function and sequence: “N-acylamino Acid Racemase” is o-Succinylbenzoate Synthase Palmer et al, Biochemistry, 38 : 4252-4258, 1999 Menaquinone métabolisme et colocalisation : exemple Similarité: MenC (E.coli) / YtfD (B.subtilis) très faible YtfD: initialement identifiée comme une N-acylamino acid racemase
{composés, réactions, pathways} nouveau génome (protéome) - réseaux de Petri - matrice stochiométrique - transfert d’atomes • ab initio la reconstruction métabolique • par homologie
Organisme A Organisme B ? la reconstruction métabolique : par homologie
Organisme A Organisme B orthologues la reconstruction métabolique : par homologie
Entrée : {réactions} (KEGG) composé « source » composé « puit » Sortie : sous-réseaux « équilibrés » : External compounds (ATP, ADP, NADP, water ...) Source Sink la reconstruction métabolique : ab initio
Internal fluxes External fluxes External fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] Compound Internal flux la reconstruction métabolique : ab initio Matrice Stoichiométrique
Internal fluxes External fluxes External fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] Compound Internal flux la reconstruction métabolique : ab initio Matrice Stoichiométrique S . v = 0
proteome complet • compartiment cellulaire identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Annotation fonctionnelle expérimentale : protéomique problématique : identification de protéines Nuc
Annotation fonctionnelle expérimentale : protéomique • proteome complet • compartiment cellulaire problématique : identification de protéines identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Nuc
plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...
base • modèle de données (données structurées) • - gestion des inconsistences • - existence d’un SGBD • requètes complexes • banque • fichier « à plat » • syntaxe définie • sémantique floue (pas de modèle explicite) • - requètes simples LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 modèle de données SGBD données Echange Stockage / Requetage des banques et des bases banques de données versus bases de données
banque • fichier « à plat » • syntaxe définie • sémantique floue (pas de modèle explicite) • - requètes simples LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 Echange Stockage / Requetage des banques et des bases banques de données versus bases de données • base • modèle de données (données structurées) • - gestion des inconsistences • - existence d’un SGBD • requètes complexes modèle de données SGBD données
SwissProt assemblage moléculaire ID DP3B_ECOLI STANDARD; PRT; 366 AA. DE DNA POLYMERASE III, BETA CHAIN (EC 2.7.7.7). ... CC -!- SUBUNIT: CONTAINS A CORE (COMPOSED OF ALPHA, EPSILON, AND THETA CHAINS) THAT ASSOCIATES WITH A TAU SUBUNIT WHICH ALLOW THE CORE DIMERIZATION TO FORM THE POLIII' COMPLEX. POLIII' ASSOCIATES WITH THE GAMMA COMPLEX (COMPOSED OF CHAINS GAMMA, DELTA, DELTA', PSI, AND CHI) AND WITH THE BETA CHAIN. THE FINAL COMPOSITION OF THE COMPLEX IS: (ALPHA,EPSILON,THETA)[2]-TAU[2]-(GAMMA,DELTA,DELTA', PSI,CHI)[2]-BETA[4]. THE BETA CHAIN IS AN HOMODIMER, WHEN NOT ASSOCIATED WITH THE OTHER COMPONENTS. requêtes, croisements, ... , traitements importance d’un modèle explicite Constat : Une grande partie des informations présentes dans les banques de données n’est pas facilement exploitable il faut expliciter les connaissances pour les rendre : - interprétables (par une machine) - cohérentes - échangeables
modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques les étapes de la création d’une base de données