190 likes | 324 Views
L’informatique, un outil pour décrypter le vivant. 8 novembre 2005 François Rechenmann INRIA Rhône-Alpes www.inrialpes.fr/helix. La course aux génomes. 1995 : obtention de la première séquence complète du génome d’un organisme vivant. novembre 2005 : 220 génomes bactériens complets
E N D
L’informatique,un outil pour décrypter le vivant 8 novembre 2005 François Rechenmann INRIA Rhône-Alpes www.inrialpes.fr/helix
La course aux génomes • 1995 : obtention de la première séquence complète du génome d’un organisme vivant • novembre 2005 : • 220 génomes bactériens complets • 24 génomes eucaryotes, dont l’homme, la souris, • le chimpanzé…
Qu’est-ce qu’un génome ? • Stricto sensu, l’ensemble des gènes d’un organisme • Par extension, le support physique de ces gènes : la macromolécule d’ADN, enchaînement d’acides nucléiques de 4 types différents, notés par les initiales des motifs chimiques qui les distinguent : A, T, C et G
Séquenceurs automatiques au Centre National de Séquençage, à Evry, dirigé par Jean Weissenbach
1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc
Où sont les gènes ? • Région de la molécule d’ADN qui porte l’information nécessaire à la synthèse d’une ou plusieurs protéines • Délimitée par • un triplet Start : ATG • et un triplet Stop : TAA, TAG ou TGA
A T G C T C G G A A C C T G T A T G T C A G G G G T T T C C C C A A G A T A A transcription A U G C U C G G A A C C U G U A U G U C A G G G G U U U C C C C A A G A U A A traduction glycine cystéine sérine valine sérine arginine leucine tryptophane méthionine glycine proline L G W C M S G V S P R
Malheureusement… • On trouve des triplets Stop en dehors des gènes • On trouve des triplets Start au sein des gènes : ils codent alors pour un acide aminé, la méthionine • Une première stratégie de recherche de gènes
ORF (Open Reading Frame) RBS (Ribosome Binding Site) triplet Stop triplet Start triplet Stop région codante prédite
Start Stop Le cas des organismes eucaryotes • Grandes régions intergéniques • Gènes morcelés en exons (codants) et introns (non codants) exon intron
Combinerplusieurs méthodes • Recherche de motifs • fixes • variables • Modèles de Markov • Recherche de séquences codantes similaires
Quelles sont les fonctions(des produits) de ces gènes ? • Recherche de séquences similaires dans les bases de séquences • génomiques : GenBank, EMBL, DDBJ • protéiques : Swiss-Prot • propagation des erreurs • problèmes des « nouveaux » gènes
Quand les gènessont-ils exprimés ? • Les « puces à ADN » permettent de détecter la présence des ARN et donc de révéler l’expression du gène correspondant
SinR/SinI SinR - SinI spo0A - Spo0A Signal + sinR sinI + + - + - A A H H H A H A F H A A A + phospho- relay + kinA KinA Spo0A˜P - spo0E - Spo0E spoIIA AbrB - Hpr abrB - - + sigH (spo0H) hpr (scoR) Comment leur expressionest-elle régulée ?
Vers des cellules virtuelles ? • Modélisation et simulation des réseaux • d’interactions géniques • métaboliques
Pour en savoir plus… http://www.inrialpes.fr/helix http://interstices.info/