1 / 57

Introduction à la Bioinformatique (2)

Introduction à la Bioinformatique (2). http://education.expasy.org/cours/Intro_bioinfo_biolo2_2013. Marie-Claude.Blatter@isb-sib.ch SIB Institut Suisse de Bioinformatique Groupe Swiss-Prot Novembre 2013. Indispensible for bioinformatic studies. Databases (free access on the web)

chaela
Download Presentation

Introduction à la Bioinformatique (2)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduction à la Bioinformatique (2) http://education.expasy.org/cours/Intro_bioinfo_biolo2_2013 Marie-Claude.Blatter@isb-sib.ch SIB Institut Suisse de Bioinformatique Groupe Swiss-Prot Novembre 2013

  2. Indispensible for bioinformatic studies • Databases (free access on the web) • Software tools • Servers

  3. Selected categories of life sciences databases • Nucleotide sequences • Genomics • Mutation/polymorphism • Protein sequences • Protein domain/family • Proteomics (2D gel, Mass Spectrometry) • 3D structure • Metabolism/Pathways • Bibliography • Others

  4. Coding Sequence (CDS)

  5. Indispensible for bioinformatic studies • Databases (free access on the web) • Software tools • Servers

  6. Analyse des séquences ADN et ARN

  7. Assemblage d’un génome….un challenge…

  8. Analyse des séquences ADN et ARN • Prédiction de gène • Détection des régions codant pour des protéines • Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; • Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; • Analyse des sites de restriction (enzymes); • Traduction ADN en protéine;

  9. Analyse des séquences ADN et ARN • Prédiction de gène • Détection des régions codant pour des protéines • Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; • Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; • Analyse des sites de restriction (enzymes); • Traduction ADN en protéine;

  10. Biais des codons, conservation des dicodons (hexamers) Exemple: Genscan (http://genes.mit.edu/GENSCAN.html)

  11. Detectsignals…. ATG AATAAA Terminator Codon for protein synthesis (TGA, TAA, TAG) Poly (A) tail AUG Primary RNA transcript Stop splicing Mature mRNA Poly (A) tail AUG Stop

  12. Jigsaw prediction for the human genome (chromosome 1)

  13. Prédiction de gène • Détection des régions codant pour des protéines • Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; • Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; • Analyse des sites de restriction (enzymes); • Traduction ADN en protéine;

  14. Reading frames 5’-ATGGTAACATGGC-3’ 3’-TACCATTGTACCG-5’ Forward strand: Frame 1: ATG GTA ACA TGG C..

  15. Reading frames 5’-ATGGTAACATGGC-3’ 3’-TACCATTGTACCG-5’ Forward strand: Frame 1: ATG GTA ACA TGG C.. Frame 2: ..ATGG TAA CAT GGC Frame 3: .AT GGT AAC ATG GC. Reverse strand: Frame 4: GCC ATG TTA CCA T.. Frame 5: ..G CCA TGT TAC CAT Frame 6: .GC CAT GTT ACC AT.

  16. Une séquence de protéine: Met -------- STOP: quelle est la bonne ?

  17. Analyse des séquences de protéines

  18. >seq4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV ISIIYDRCVDWISERLREKIRQRRKGA

  19. Caractérisation physicochimique (pI, pM, coefficient extinction…) • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires; • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications post-traductionelles (PTM). • Recherche de régions antigéniques.

  20. Conclusion de l’analyse in silico d’une protéine inconnue Poids moléculaire: 126 kD; Fonction: ATPase potentielle; Localisation subcellulaire: Membrane plasmique. Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire) PTM: Phosphorylée Ça me semble biologique …mais reste à le prouver !

  21. Comparaison de séquences

  22. Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de l’évolution; MY-TAIL--ORIS-RICH- #x #### x#x# #### MONTAILLEURESTRICHE (algorithme pour comparer des chants d’oiseaux)

  23. Matrice de substitution (BLOSUM62)

  24. Application :Recherche de similarité (BLAST) Basic Local Alignment Search Tool

  25. Recherche de similarité (BLAST) Outil bioinformatique très efficace, permettant de trouver les séquences similaires à une séquence données (protéine ou nucléique) -> Compare une séquence ‘query’ avec toutes les séquences existantes dans les banques de données (UniProtKB: 26 mo d’entrées). Résultats: une liste d’entrées avec des scores de ‘similarité’

  26. BLAST (www.uniprot.org) Est-ce qu’il existe une protéine similaire à l’hémoglobine humaine chez les plantes ? Séquence de l’hémoglobine humaine Probabilité de retrouver la même séquence par hasard…

  27. Sur quel chromosome humain se situe le gène HBB ? Une séquence au hasard (ATGC) se retrouve-t-elle sur le génome ?

  28. Probabilité de retrouver la même séquence par hasard…

  29. Alignement multiple

  30. Alignement multiple des séquences d’insuline Peptide signal Hélice alpha Hélice alpha clustalW, T coffee, muscle…

  31. Alignement multiple ‘hémoglobine béta’ (HBB) @ UniProt

  32. Application:Analyse phylogénétique

  33. Il est possible de construire un arbre phylogénétique à partir de différents types de données: • Les données morphologiques (écailles ou plumes, présence de certains os du crâne, forme des feuilles…). Il existe quelques centaines de caractères définis dans ce but par les spécialistes. • Les caractères physiologiques (température corporelle…) Mais aussi… • L’ordre des gènes (par exemple sur l’ADN des mitochondries) • Les données moléculaires (séquences d’ADN ou de protéines). Des mutations modifient les séquences de l’ADN et par conséquent des protéines au cours de l’évolution. • toutes les données existantes….(défi scientifique !)

  34. http://www.unige.ch/450/expositions/genome/presentation/slogans.htmlhttp://www.unige.ch/450/expositions/genome/presentation/slogans.html

  35. Le principe • 1. Sélection: set de séquences de protéines ‘homologues’ • 2. Comparaison: alignement multiple • 3. Construction de l’arbre: ‘calculer les différences’ + quelques calculs statistiques…

  36. Actin-related protein 2 ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE *:* :* ******** *** *** . **::****::*: . *::::**:***:* Les différentes espèces sont: Caenorhabditis briggsae Drosophila melanogaster Homo sapiens Mus musculus Schizosaccharomyces pombe Quelle séquence ‘appartient’ à quelle espèce ? ?

  37. ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE • ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE • *:* **:******** *** *** . ***:*****:*: :..**::***:***:* • ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE • ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ********:* *************:*** ****::*****:*** .************:* • ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ************************************************************ • ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE • ***:**:*:******************* ****::****:**:..*:*:**:******** • ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE • ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • *:* :* ******** *** .*** . **::*****:*: *.**::***:***** • ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE • ********:* *************:*** ****::*****:*** .************:*

  38. Le principe • 1. Sélection: set de séquences de protéines ‘homologues’ • 2. Comparaison: alignement multiple • 3. Construction de l’arbre: ‘calculer les différences’

  39. http://www.phylogeny.fr/ www.phylogeny.fr

More Related