1 / 59

Les - omiques

Les - omiques. ENSPS 2 TIC-Santé 2012-2013. Plan. Introduction: La définition des – omiques et leurs apparitions en Biologie L’analyse de l’information dans les données Les génomes : de la cartographie au séquençage, Les ARN messagers : de l’hybridation au DNA chip,

curt
Download Presentation

Les - omiques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les -omiques ENSPS 2 TIC-Santé 2012-2013

  2. Plan • Introduction: • La définition des –omiques et leurs apparitions en Biologie • L’analyse de l’information dans les données • Les génomes : de la cartographie au séquençage, • Les ARN messagers : de l’hybridation au DNA chip, • La protéomique : Du gel bidimensionnel à la spectrométrie de masse. L’interactome. • La métabolomique (l’analyse des métabolites)

  3. introduction

  4. les « omes » les souris Annotation (syntaxique et fonctionnelle) ADN • Algorithmique sur les mots • Statistique ARN DNA-Chips Transcriptome régulation • Trait. signal, statistique • Analyse de données Protéines Gel 2D, spectro de masse Protéome • Analyse d’images, statistique • Algorithmique enzymes A T P N O O O N O N O P O O P O P Métabolome Interactome N N O O O O O métabolisme • Représentation des connaissances Génome • Simulation, modélisation • Algorithmique sur les graphes

  5. The -omics Fromreductionnism To Holism ...

  6. SystemsThinking Items Structural Biology MacroMolecules Bioenergy Energy Molecular Biology Metabolism Information Matter Cells Cell Biology Physiology Organs Increaselevel of integration Organology Organisms 1968 General System Theory Ludwig von Bertalanffy Anthropology Society Sociology 1942-1953 Macy Meeting McCulloch Turing Wiener Von Newman Functions

  7. Vision temporelle et forces structurantes

  8. plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

  9. plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

  10. • Annotation syntaxique zones d ’intérêt (features) • CDS ’s, ARNs • Signaux de régulation • Repeats... etc détection par contenu objets « individuels » • Annotation fonctionnelle attribution de « fonction » EMBL • produits des gènes • familles d ’opérateurs généralement par similarité • Annotation relationnelle relations entre les entités relations niveaux d’annotation d’un génome séquence ADN brute • voies métaboliques • réseaux d ’intéractions géniques

  11. ............ CGA CTA GGA TGG CGG ........ phase 1 phase 1 A,C,G,T ............ CGACTA GGA TGGCGG ........ Apprentissage i ............ AL G WA ........ k phase 1 phase 2 Pcodant start stop w phase 3 annotation syntaxique : recherche de gènes ............CGACTAGGATGGCGG........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d ’usage du code) P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov P(X/X1...Xk) Matrice(s) de transitions • Utilisations

  12. Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal) annotation syntaxique : recherche de gènes • Procaryotes GenMark (Borodovski) Glimmer (Salzberg)

  13. • structuration exons/introns • régions 5 ’ et 3 ’ UTR • exons (chaînes de Markov, protéines, ESTs) • détection • jonctions (MPP, Res. neurones) 2 Phases annotation syntaxique : recherche de gènes • Eucaryotes • usage du code variable (ex: isochores chez les mammifères) • assemblage (HMM, DAG)

  14. 1 3 6 4 16 2 6 6 2 6 65 1 2 p=1/10 p=1/6 p(6)=2/6 p=1/10 Modèle biologique exon1 exon2 GeneScan (Burge et al.) annotation syntaxique : assemblage des exons Modèle mathématique : modèle de Markov à états cachés (H.M.M) 1 3 6 4 1 6 2 6 6 2 6 6 5 1 2

  15. procaryotes : OK (> 90%) • recherche de gènes Repeats, µ-sat: OK RBS, opérateurs : ? promoteurs : difficile (même pour les procaryotes) annotation syntaxique : petit résumé eucaryotes : partiel (25 à 60%) • recherche d ’ARN : tARN, rARN, snARN : ? • recherche de signaux

  16. plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

  17. • rôle biochimique • rôle physiologique • mécanisme • propagation des « erreurs » • « orphelins » annotation fonctionnelle in silico ? « FONCTION » ? • par similarité de séquence (criblage de banques) • par le contexte génomique (genomique comparative)

  18. Emploi S1 S1 Global S2 S2 Needelmann-Wunsch relativement rare Semi Global S1 recherche d ’homologues End-gaps free S2 Local Smith-Waterman recherche de similarités (locales) Heuristiques Prog. Dynamique P R E M I E R PR E - M I E R D E R N I E R D - E RN I E R Matrice de substitutions Sub(M,N) Ins/Del annotation fonctionnelle in silico : comparaison de séquences 3 familles d ’alignements (2 à 2) de séquences Fasta Blast

  19. annotation fonctionnelle in silico : prédiction prédiction de structure / propriété à partir de la séquence (nucléique/protéique) • - prédiction de structures secondaires • passages transmembranaires • localisation cellulaire • etc...

  20. modèle statistique V S modelV P(S | modelV) P(S | modelF) F ? modelF -2- règle de décision Bayes -1- apprentissage estimation des paramètres des modèles à partir d’exemples connus P(modelV | S) = P(S | modelV) . P(modelV) P(S) P(S|modelV) . P(modelV) + P(S|modelF) . P(modelF) réalité V F V V VP FP prédiction F F FN VN ensemble test ≠ apprentissage matrice de confusion prédiction : méthodologie Apprentissage à partir d’exemples -3- validation -> sensibilité, sélectivité, précision, coeff de correl.

  21. plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

  22. annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux

  23. annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats modélisation de réseaux inférence de réseaux

  24. conditions expérimentales données brutes données traitées données interprétées I(r, t) log(Ir/Ig) modele statistique statistique exploratoire I(g, t) • analyses factorielles • clustering (HC, SOM, ...) • distribution de I ? • - distribution des rapports données de transcriptome : analyse des résultats Ir/Ig > s significatif ?

  25. g1 g2 g3 g4 g5 ... individus statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes)

  26. caractères 1 0 0 1 0 0 0 1 0 0 0 1 statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) up down neutral g1 g2 g3 g4 g5 ... Q1 individus up/down Regulé ?

  27. caractères statistique exploratoire : un exemple simple l’Analyse des Correspondances Multiples Sondage (questionnaire à réponses booléennes) up down neutral pres. abs. g1 g2 g3 g4 g5 ... 1 0 0 1 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 Q1 Q2 Qi individus up/down Regulé ? Krebs ? promoteur ? -> analyse du lien entre différentes sources d’information

  28. 2 y = x chi2 dépendance ≠ corrélation x g1 g2 g3 Reg-up Krebs-present Reg-up gi Prom-absent statistique exploratoire : l’ACM analyse du lien entre les individus / entre les caractères Donner une représentation (plane) vérifiant :

  29. Q1-neutral Reg-up Krebs-non Krebs-oui Q1-down statistique exploratoire : l’ACM - analyse de la proximité des caractères

  30. - identification des invidus concernés Q1-neutral Reg-up statistique exploratoire : l’ACM - analyse de la proximité des caractères Krebs-non Krebs-oui Q1-down - suggestion d’un lien -> analyse exploratoire - doit etre suivi d’un test statistique ( -> chi2)

  31. annotation fonctionnelle expérimentale • - knock-out • transcriptome • - proteome • modélisation de réseaux géniques • - modélisation de réseaux métaboliques analyse des résultats inférence de réseaux

  32. 1 1 3 2 3 2 dynamique : équations différentielles linéaires par morceaux APPROCHES quantitatives qualitatives Valeurs des paramètres ? équations différentielles réseaux booléens formalisme logique modélisation de réseaux géniques

  33. 1 1 3 2 3 2 x1 Equations différentielles lineaires par morceaux . 1 x1 = k12. s+(x2, 12) - 1x1 . 0 x2 = k213. s -(x1, 21) . s -(x3, 23) - 2x2 x2 . 12 x3 = k31. s -(x1, 31) + k33. s -(x3, 33) - 3x3 seuil modélisation de réseaux géniques

  34. 1 ? 3 2 Experience Approche bioinformatique knockout disruption network réseaux bayésiens dna-chip model checking inférence de réseaux géniques

  35. ? A A A A B B B B C D C D C D C D A B C D disruption network

  36. BD métaboliques (KEGG) + colocalisation de gènes (microsynténies) Annotation fonctionnelle expérimentale : métabolisme

  37. menD ytfD menE menB menH menF B.subtilis E. coli menD menE menC menB menH menF Menaquinone biosynthesis Chorismate Le contexte génomique suggère qu’YtfD est l’orthologue de MenC cad une o-succinyl-CoA synthase l’activité enzymatique a été confirmée expérimentalement Unexpected divergence of enzyme function and sequence: “N-acylamino Acid Racemase” is o-Succinylbenzoate Synthase Palmer et al, Biochemistry, 38 : 4252-4258, 1999 Menaquinone métabolisme et colocalisation : exemple Similarité: MenC (E.coli) / YtfD (B.subtilis) très faible YtfD: initialement identifiée comme une N-acylamino acid racemase

  38. {composés, réactions, pathways} nouveau génome (protéome) - réseaux de Petri - matrice stochiométrique - transfert d’atomes • ab initio la reconstruction métabolique • par homologie

  39. Organisme A Organisme B ? la reconstruction métabolique : par homologie

  40. Organisme A Organisme B orthologues la reconstruction métabolique : par homologie

  41. Entrée : {réactions} (KEGG) composé « source » composé « puit » Sortie : sous-réseaux « équilibrés » : External compounds (ATP, ADP, NADP, water ...) Source Sink la reconstruction métabolique : ab initio

  42. Internal fluxes External fluxes External fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] Compound Internal flux la reconstruction métabolique : ab initio Matrice Stoichiométrique

  43. Internal fluxes External fluxes External fluxes from “The challenges of in-silico biology” [B.O. Pallson]& [C.H. Schilling, S. Schuster] Compound Internal flux la reconstruction métabolique : ab initio Matrice Stoichiométrique S . v = 0

  44. proteome complet • compartiment cellulaire identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Annotation fonctionnelle expérimentale : protéomique problématique : identification de protéines Nuc

  45. Annotation fonctionnelle expérimentale : protéomique • proteome complet • compartiment cellulaire problématique : identification de protéines identif MS carte peptidique protéine /mélange fragments digestion trypsique identif LC MS/MS identif AVYLGH séquences /tags Prot Nuc

  46. plan 1- de la séquence brute à la séquence annotée 2- annotation fonctionnelle in-silico 3- annotation fonctionnelle expérimentale 4- acces aux données et intégration 5- vers d’autres informations...

  47. base • modèle de données (données structurées) • - gestion des inconsistences • - existence d’un SGBD • requètes complexes • banque • fichier «  à plat » • syntaxe définie • sémantique floue (pas de modèle explicite) • - requètes simples LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 modèle de données SGBD données Echange Stockage / Requetage des banques et des bases banques de données versus bases de données

  48. banque • fichier «  à plat » • syntaxe définie • sémantique floue (pas de modèle explicite) • - requètes simples LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 REFERENCE 2 (bases 1 to 4639221) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: ecoli@genetics.wisc.edu Phone: 608-262-2534 Fax: 608-263-7459 Echange Stockage / Requetage des banques et des bases banques de données versus bases de données • base • modèle de données (données structurées) • - gestion des inconsistences • - existence d’un SGBD • requètes complexes modèle de données SGBD données

  49. SwissProt assemblage moléculaire ID DP3B_ECOLI STANDARD; PRT; 366 AA. DE DNA POLYMERASE III, BETA CHAIN (EC 2.7.7.7). ... CC -!- SUBUNIT: CONTAINS A CORE (COMPOSED OF ALPHA, EPSILON, AND THETA CHAINS) THAT ASSOCIATES WITH A TAU SUBUNIT WHICH ALLOW THE CORE DIMERIZATION TO FORM THE POLIII' COMPLEX. POLIII' ASSOCIATES WITH THE GAMMA COMPLEX (COMPOSED OF CHAINS GAMMA, DELTA, DELTA', PSI, AND CHI) AND WITH THE BETA CHAIN. THE FINAL COMPOSITION OF THE COMPLEX IS: (ALPHA,EPSILON,THETA)[2]-TAU[2]-(GAMMA,DELTA,DELTA', PSI,CHI)[2]-BETA[4]. THE BETA CHAIN IS AN HOMODIMER, WHEN NOT ASSOCIATED WITH THE OTHER COMPONENTS. requêtes, croisements, ... , traitements importance d’un modèle explicite Constat : Une grande partie des informations présentes dans les banques de données n’est pas facilement exploitable il faut expliciter les connaissances pour les rendre : - interprétables (par une machine) - cohérentes - échangeables

  50. modèle p.ex: UML implémentation p.ex: SGBD relationnel (Oracle, postGres, MySQL) instanciation banques les étapes de la création d’une base de données

More Related