Bioinformatique INSA 2001

Bioinformatique INSA 2001

Pourquoi la « Bio-informatique »? • Besoin de « calculs » • Gestion de données • Modélisation de systèmes complexes • Quels champs de la Biologie?

Bio-informatique génomiqueLes objectifs • Comprendre l’information génomique • Comprendre l’évolution de l’information génomique • Intégrer les connaissances sur les génomes à des niveaux d’organisation supérieur

Bio-informatique génomiqueles méthodes • Gestion et modélisations des données et des connaissances • Extraction des connaissances (stats, algorithmie, apprentissage, fouille de données) • Modélisation de systèmes dynamiques • Estimation de structures (biologie structurale)

Le contexte national • Incitation à la recherche et au développement • Les principaux centres français • Les principales formations

Bio-informatique génomiquePlan du cours • Structure des génomes, cartographie : C. GAUTIER (cgautier@biomserv.univ-lyon1.fr) • Annotation des génomes : L. GUEGUEN • Evolution des génomes, phylogénie :J. LOBRY • Expression des gènes, puces, réseaux de régulation : H. CHARLES

Quelques caractéristiques de la biologie • Une bonne séparation entre information et fonction

fonction information 5nm

Quelques caractéristiques de la biologie • Une bonne séparation entre information et fonction • Homogénéité des mécanismes, diversité des formes

GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGT CAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCAC AAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTG TCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT GAGTCATGAGAGTCAGGAATGTTACTTCTCAGAGGCGCCAAATGGCAGTT GTCACAGGGTCATCATAGAGGGAATGTAGAGACCTTTCATGAATGTTTAT TCTAATTGCAGTACAATAAAACCTTAGACTTCACAATCCATCATTCCTCT ATCAAATCAAATATTACAGGGCTCATGTCTTTATCATGACAGTATTTTAT TCTAAAAGTGTATTTTCCTACATTTTCCAACTTCTAAAATAATAAAAAAT AGCTTTGGCATGACAGTTGCCTGACATAAATGAAAACACAATTTAATGAA ATGGCATTTTATGAATTTAAAGTGAAGCAAATATTTGACATGCTTTATTT AAATTAATTTGCTATGCATGCTCTGTTGTTTCAATTGCAGCAGAGCTTTG TTTTATTATATGTTTACTGCACTGGGCTCTGAGGCTTGCTTGTGAAGAAA CAGAAGCTAAGGGATCCAGGGAGTCCCAACTTAGAGAGTCCCACAGGCCC ACACTCTGGTTCTGTTGGCAGGAAAATTTGGCTGAATTGGGGCAGGAAGT TGTGTAACAAAACGATTACATCCATTTTTGCAAGGCAAGAGTGAGCTATT

Quelques caractéristiques de la biologie • Une bonne séparation entre information et fonction • Homogénéité des mécanismes, diversité des formes • Rôle fondamental de l’évolution

fixation mutation élimination LeDarwinisme Un million d'années Une génération

blé

Chromosome 4: 200 millions de nucléotides Gène de l ’albumine: 16 951 nucléotides Messager: 1 815 nucléotides Génome humain: 3 milliards de nucléotides 23 chromosomes

Les réseaux d’interactions et le développement des organismes multi-cellulaires • différentiation et spécialisation des cellules • morphogenèse • exemple du développement de l’embryon de drosophile

Développementde l’embryon de drosophile Mise en place d’un axe antéro-postérieuret d’un axe dorso-ventral à travers l’expression hiérarchique et spatialement ordonnée d’un ensemble de gènes

Réseaux d’interactions et développement A C B D

Répartition de l ’ADN non informatif au sein des génomes 13% 28% 27% 2% 85% 70% 71% 2% 2% Levure Nematode E. coli S. cerevisiae C. elegans 5% 2% 0,01% 2% 85% 98% 13 % 93% 2% Drosophile Homme Lunfish (dipneuste) Codant (proteine) ARN Non-codant

Projets génome • • Eubacteries: 29 génomes complets (dont 19 dans les 12 derniers mois !) • • Archées: 6 génomes complets • • Eucaryotes: 3 (4) génomes complets • levure: 13 Mb 100% • P. falciparum 30 Mb 24% • C. elegans (nématode) 100 Mb 95% • A. thaliana (arabette) 120 Mb 60% • Drosophila 170 Mb 60% (100%) • homme 3200 Mb 25% Chr. 21 :38Mb • Chr. 22 :33,4Mb • « draft » 90% complete in 2000, finished in 2003 • souris 3000 Mb 1%

Compartimentation fonctionnelledu génome humain ADN INFORMATIF (19%) - gènes codant pour les protéines (5%) - gènes codant pour les ARN (2%) (ARNt-ARNr-ARNn) - gènes régulateurs (12%) (recombinaison - replication - ségrégation) ADN NON INFORMATIF (81%) - séquences hautement répétées (10%) (ADN satellite - minisatellite - microsatellite) - séquences moyennement répétées (30%) (rétroéléments SINES - ALU (10%) LINES - L1 (5%) Autres répétitions (15%)) - séquences uniques ou très peu répétées (60%) (introns - pseudogènes)

Dynamique évolutive de l ’ADN non codant Séquences répétées en tandem Motif Taille des blocs % génome humain up to 10 Mb s atellite: 2-2000 nt 10% 100-20,000 bp minisatellite: 2-64 nt microsatellite: 1-6 nt 2% 10-100 bp Crossing-over inégaux Bégaiement de l ’ADN polymerase (slippage) AACTAGCACACACA TTGATCGTGTGTGT AG T C C A AA CACACA……. TT GATCGTGTGTGT…. Recombination

Transcriptase réverse: Dynamique évolutive de l ’ADN non codant Retrovirus La rétrotranscription reverse transcription DNA RNA integration transcription Cell Nucleus LTR gag pol env LTR Retrovirus Retrotransposon Retroposon Retroséquence LINEs (long interspersed elements): 6-8 kb retroposons SINEs (short interspersed elements):80-300 bp small-RNA-derived retrosequences (tRNA), pol III Endogenous Retroviruses : 5-10 kb

La méthylation Addition d ’un groupement méthyl sur les cytosines des doublets CpG Evitement des doublets CpG et gain de doublets TpG ou CpA methyl 5’-A-T- T-G -G-C-3’ 3’-T-A-A-C-C-G-5’ 5’-A-T- C-G -G-C-3’ 3’-T-A- G-C -C-G-5’ 5’-A-T- C-A -G-C-3’ 3’-T-A-G-T-C-G-5’ methyl

Comment tester l’évitement de CpG? • Fréquence attendue de CpG connaissant les fréquences de C et G? • petit rappel de statistiques non paramétriques (nombre de suites) • les deux modèles de référence

Modèle : permutation des bases Modèle : permutation avec conservation de la position Homme: DNA plomerase b, droso : Dcdrk kinase

100 80 60 40 20 20 40 60 80 La structure en isochores :mise en évidence statistiqueCorrélation entre la composition en GC3 du gène et celle de l'environnement génomique dans lequel se trouve le gène 493 genes from 159 cosmid (>50 kb) 21 Mb 97% non-coding 100 80 G+C % 3rd codon position G+C % 3rd codon position 60 40 2 R = 0.49 20 30 40 50 60 G+C% cosmids G+C% introns (Aïssani et al. 91)

La structure en isochore des génomes de Vertébrés Bernardi, 85 L1+L2 H1+H2 L1+L2 H1+H2 L1+L2 H3 Relation avec l’organisation de l’information Densité en gènes (Mouchiroud, 91) Structure des gènes(Duret, 95) Insertion des séquences répétées (A. Smit 96) Banding chromatidien (Saccone, 93) Relation avec le fonctionnement du génome Expression des gènes ? (Bernardi 2000, Gonçalves,2000) Fréquence de recombinaison ? (Eyre-Walker 93) « Timing » de la réplication (Tenzen, 95) >300 kb isochore %C+G % total genomic DNA L1+L2 : 33%-44% 62 % H1+H2 : 44%-51% 31% H3 : 51%-60% 3-5%

Isochores et densité en gènes Nombre de gènes / Mb 140 Isochore % ADN total % Nbre de gènes total 100 L1+L2 : 62 % 31% H1+H2 : 31% 39% 60 H3 : 3-5% 30% 20 L1+L2 H1+H2 H3 MHC locus (3.6 Mb) (The MHC sequencing consortium 99) Class I, class II (H1-H2 isochores): 20 gènes/Mb, beaucoup de pseudogènes Class III (H3 isochore): 84 gènes/Mb, pas de pseudogène

Taille des introns (bp) 2000 1600 1200 800 400 L1L2 H1H2 H3 Compaction des gènes(introns/CDS) 12 10 8 6 4 2 L1L2 H1H2 H3 Isochores et structure des gènes 760 gènes humains complets L1L2: intron G+C% < 46% H1H2: intron G+C% 46-54% H3: intron G+C% >54% Dans H3, la densité en gènes est 4 à 6 fois plus importante les gènes protéiques sont 3 fois plus compacts Les protéines de très grandes tailles se trouvent dans L1+L2

G+C 39%-47% G+C > 47% Isochores et insertion des séquences répétées (Smit 99) Densité 20% LINE-1 GC% des séquences génomiques Alu LTR- elements 16% G+C < 39% 12% 4419 séquences humaines > 50 kb 80% des rétropseudogènes détectés se trouvent localisés dans L1-L2 (Gonçalves, 2000) 8% 4%

Transcriptase réverse: Dynamique évolutive de l ’ADN non codant Retrovirus La rétrotranscription reverse transcription DNA RNA integration transcription Cell Nucleus LTR gag pol env LTR Retrovirus Retrotransposon Retroposon Retroséquence LINEs (long interspersed elements): 6-8 kb retroposons SINEs (short interspersed elements):80-300 bp small-RNA-derived retrosequences (tRNA), pol III Endogenous Retroviruses : 5-10 kb

Les isochores et l’organisationde l’information génétique - La densité en gènes protéiques est plus importante dans H3. - La structure des gènes protéiques est plus compacte dans H3. - Les séquences de types LINES ainsi que la majorité des rétroéléments sont évitées dans H3. - Insertion « isopycnique » des séquences répétées, des séquences rétrovirales et des rétropseudogènes. - La densité en isochores H3 est plus importante au niveau des bandes télomériques. Les bandes G sont homogènes et pauvres en GC. - Inégale répartition des isochores entre chromosomes humains en relation avec l ’inégale répartition de l ’information génétique.

Isochores et expression des gènes Analyse de 5250 gènes codants humains GC3% Expression (ln) 3,6 70% 3,4 3,2 60% 3 2,8 L1+L2 H1+H2 H3 t0 t1-3 t4-6 t7-9 t16-19 t10-12 t13-15 t20-28 Isochores Distribution tissulaire

Les isochores et le fonctionnement du génome • Isochores et expression de l’information • Hyp : les gènes de ménage se trouvent essentiellement dans H3 (Bernardi 85,2000) • Faux : Les gènes tissus-spécifiques se trouvent majoritairement dans H3 ? • Isochores et timing de réplication • Hyp : les régions riches en GC se répliquent en début du cycle (phase précoce). • Vrai : pour le complex MHC (Tenzen, 95) • Faux : pas de lien au niveau des gènes (Ehre-Walker, 91) • Isochores et fréquence de recombinaison • Hyp :la recombinaison méiotique est associée à un biais de conversion vers GC • Vrai : pour la région Nf1(Eisenbarth et al. 2000) • Vrai : pour la région pseudoautosomale du chromosome X • Vrai : pour les régions télomériques • Faux : pas de lien au niveau des gènes

7 7 Moy = .612 Moy = .639 Ecart-t = .158 Ecart-t = .171 6 6 5447 séq 818 séq 5 5 4 4 3 3 2 2 1 1 0 0 0 20 40 60 80 100 0 20 40 60 80 100 Major shiftDistribution en fréquence des gènes dans les différentes classes d'isochores 14 12 Moy = .509 Moy = .580 Ecart-t = .106 12 Ecart-t = .103 10 703 séq 173 séq 10 8 8 6 6 4 4 2 2 0 0 0 20 40 60 80 100 0 20 40 60 80 100 Nb de gènes (%) Danio Xénope Homme Poulet CDS GC3%

Boeuf Rat P = 0,66 P= 0,96 R = 0,86 R= 0,98 Xenopus laevis P = 0,27 R = 0,43 Homme Evolution de la structure en isochores chez les vertébrés 100 80 60 40 C+G% en position 3 des codons 20 Poulet 80 60 40 P = 0,79 R = 0,73 20 20 40 60 80 20 40 60 80 100 C+G% en position 3 des codons

Evolution de la structure en isochores Les génomes de mammifères et d’oiseaux présentent une compartimentation en base très contrastée (Mouchiroud et al. 93, Kadi et al.93 ). contrairement aux génomes de poissons et d’amphibiens qui présentent une structure plus homogène et faible en base G+C (Bernardi et al. 91,97). Les génomes de reptiles analysés présentent également une compartimentation contrastée (Hughes et al. 99).

Structure en isochores des génomes reptiliens GC3,% GC3%, crocodilien 100 100 R : - 0,025 R : 0,861 R : 0,792 N : 20 Pente : 0,965 Pente : 0,975 N : 24 N : 24 80 80 crocodilien 60 60 40 40 20 20 100 20 40 60 80 R : 0,753 R : 0,808 Pente : 0,753 Pente : 0,743 GC3%, xénope N :20 N : 20 80 chélonien 60 Actinopterygiens Amphibiens 40 Mammifères Lépido-sauriens 20 Chéloniens 100 20 40 60 80 20 40 60 80 Crocodiliens poulet homme GC3,% Oiseaux

Modèles évolutifs • Modèle sélectionniste : • Pression sélective (Ehre-Walker 99, Bernardi, 2000 ) • Pas adaptation à l’homéothermie (Hughes et al. 2000) • Sélection non traductionnelle (Ehre-Walker 99) • Modèle neutre : • Biais mutationnel (Gonçalves, 2000 , Francino et Ochman 99) • Réplication pour le MHC (Wolfe, 93, Tenzen, 95) • Méthylation (Fryxell et Zuckerkandl 2000) • Biais de conversion (Eyre-Walker 93) • Recombination pour la région Nf1 (Eisenbarth et al. 2000)

100 80 60 40 20 80 60 40 20 20 40 60 80 40 60 80 100 % C+G III, homme Minor shift (Mouchiroud, 93 ;Robinson, 97; Galtier, 98) Chien Vache % C+G III, Pente = 0,931 Pente = 0,979 Lapin Rat Pente = 1,051 Pente = 0,578 20

GC% 100 LCAT 80 60 40 27 gènes codants Estimation de la structure ancestrale Estimation de la composition en base aux nœuds de l ’arbre avec la méthode du maximum de vraissemblance sous un modèle de substitutions non homogènes le long des branches de l ’arbre. Muridés Mammifères GC ancestral Exemple de LCAT

Un premier exemple La traduction chez E. coli

Usage du code • En moyenne un acide aminé peut être codé par 3 codons. • Une même protéine de 100 acides aminés peut donc être représentée par environ 3100 soit 5x1047 messagers différents. • Quelles sont les règles qui régissent le choix parmi ce très grand nombre de possibilités

Comment comparer les usage du codes dans différents gènes • Les données correspondent à un tableau de 61 colonnes et n lignes si le nombre de gènes est n • Il faut des outils pour résumer de manière pertinentes de telles données

Usage du code génétique Usage du code et fonctionnement de la traduction Usage du code et structure génomique (chirochore, isochore) Usage du code et tissu d’expression ?

Distance l ’analyse factorielle des correspondances Pourquoi une formule aussi compliquée?

Pause Excel

Bioinformatique INSA 2001

Bioinformatique INSA 2001

Presentation Transcript

CIB : Centre Intégré de Bioinformatique

La recherche d’information en bioinformatique

Bioinformatique en génomique évolutive

DIA DO INSA - 2008

September 2011 insa-toulouse.fr

Bioinformatique: prédiction de gènes

1 karel.heurtefeux@insa-lyon.fr 2 fabrice.valois@insa-lyon.fr

La Bioinformatique à Nancy

insa-lyon.fr

INSA

Introduction à la bioinformatique

Introduction à la Bioinformatique (2)

insa-lyon.fr

1 karel.heurtefeux@insa-lyon.fr 2 fabrice.valois@insa-lyon.fr

1 karel.heurtefeux@insa-lyon.fr 2 fabrice.valois@insa-lyon.fr

Bioinformatique et Perl

INSA

Bioinformatique =??

CHMI 4206 Bioinformatique appliquée

Bioinformatique ABI-1001

February 2012 insa-toulouse.fr

Bioinformatique fonctionnelle des protéines