690 likes | 1.11k Views
Introduction à la Bioinformatique (2). http://education.expasy.org/cours/Intro_bioinfo_biolo2_2013. Marie-Claude.Blatter@isb-sib.ch SIB Institut Suisse de Bioinformatique Groupe Swiss-Prot Novembre 2013. Indispensible for bioinformatic studies. Databases (free access on the web)
E N D
Introduction à la Bioinformatique (2) http://education.expasy.org/cours/Intro_bioinfo_biolo2_2013 Marie-Claude.Blatter@isb-sib.ch SIB Institut Suisse de Bioinformatique Groupe Swiss-Prot Novembre 2013
Indispensible for bioinformatic studies • Databases (free access on the web) • Software tools • Servers
Selected categories of life sciences databases • Nucleotide sequences • Genomics • Mutation/polymorphism • Protein sequences • Protein domain/family • Proteomics (2D gel, Mass Spectrometry) • 3D structure • Metabolism/Pathways • Bibliography • Others
Indispensible for bioinformatic studies • Databases (free access on the web) • Software tools • Servers
Analyse des séquences ADN et ARN • Prédiction de gène • Détection des régions codant pour des protéines • Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; • Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; • Analyse des sites de restriction (enzymes); • Traduction ADN en protéine;
Analyse des séquences ADN et ARN • Prédiction de gène • Détection des régions codant pour des protéines • Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; • Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; • Analyse des sites de restriction (enzymes); • Traduction ADN en protéine;
Biais des codons, conservation des dicodons (hexamers) Exemple: Genscan (http://genes.mit.edu/GENSCAN.html)
Detectsignals…. ATG AATAAA Terminator Codon for protein synthesis (TGA, TAA, TAG) Poly (A) tail AUG Primary RNA transcript Stop splicing Mature mRNA Poly (A) tail AUG Stop
Prédiction de gène • Détection des régions codant pour des protéines • Détection des régions codant pour des ARN fonctionnels (exemples: tRNA, rARN, miRNA). • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; • Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; • Analyse des sites de restriction (enzymes); • Traduction ADN en protéine;
Reading frames 5’-ATGGTAACATGGC-3’ 3’-TACCATTGTACCG-5’ Forward strand: Frame 1: ATG GTA ACA TGG C..
Reading frames 5’-ATGGTAACATGGC-3’ 3’-TACCATTGTACCG-5’ Forward strand: Frame 1: ATG GTA ACA TGG C.. Frame 2: ..ATGG TAA CAT GGC Frame 3: .AT GGT AAC ATG GC. Reverse strand: Frame 4: GCC ATG TTA CCA T.. Frame 5: ..G CCA TGT TAC CAT Frame 6: .GC CAT GTT ACC AT.
Une séquence de protéine: Met -------- STOP: quelle est la bonne ?
>seq4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV ISIIYDRCVDWISERLREKIRQRRKGA
Caractérisation physicochimique (pI, pM, coefficient extinction…) • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires; • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications post-traductionelles (PTM). • Recherche de régions antigéniques.
Conclusion de l’analyse in silico d’une protéine inconnue Poids moléculaire: 126 kD; Fonction: ATPase potentielle; Localisation subcellulaire: Membrane plasmique. Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire) PTM: Phosphorylée Ça me semble biologique …mais reste à le prouver !
Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de l’évolution; MY-TAIL--ORIS-RICH- #x #### x#x# #### MONTAILLEURESTRICHE (algorithme pour comparer des chants d’oiseaux)
Application :Recherche de similarité (BLAST) Basic Local Alignment Search Tool
Recherche de similarité (BLAST) Outil bioinformatique très efficace, permettant de trouver les séquences similaires à une séquence données (protéine ou nucléique) -> Compare une séquence ‘query’ avec toutes les séquences existantes dans les banques de données (UniProtKB: 26 mo d’entrées). Résultats: une liste d’entrées avec des scores de ‘similarité’
BLAST (www.uniprot.org) Est-ce qu’il existe une protéine similaire à l’hémoglobine humaine chez les plantes ? Séquence de l’hémoglobine humaine Probabilité de retrouver la même séquence par hasard…
Sur quel chromosome humain se situe le gène HBB ? Une séquence au hasard (ATGC) se retrouve-t-elle sur le génome ?
Probabilité de retrouver la même séquence par hasard…
Alignement multiple des séquences d’insuline Peptide signal Hélice alpha Hélice alpha clustalW, T coffee, muscle…
Il est possible de construire un arbre phylogénétique à partir de différents types de données: • Les données morphologiques (écailles ou plumes, présence de certains os du crâne, forme des feuilles…). Il existe quelques centaines de caractères définis dans ce but par les spécialistes. • Les caractères physiologiques (température corporelle…) Mais aussi… • L’ordre des gènes (par exemple sur l’ADN des mitochondries) • Les données moléculaires (séquences d’ADN ou de protéines). Des mutations modifient les séquences de l’ADN et par conséquent des protéines au cours de l’évolution. • toutes les données existantes….(défi scientifique !)
http://www.unige.ch/450/expositions/genome/presentation/slogans.htmlhttp://www.unige.ch/450/expositions/genome/presentation/slogans.html
Le principe • 1. Sélection: set de séquences de protéines ‘homologues’ • 2. Comparaison: alignement multiple • 3. Construction de l’arbre: ‘calculer les différences’ + quelques calculs statistiques…
Actin-related protein 2 ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE ARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE *:* :* ******** *** *** . **::****::*: . *::::**:***:* Les différentes espèces sont: Caenorhabditis briggsae Drosophila melanogaster Homo sapiens Mus musculus Schizosaccharomyces pombe Quelle séquence ‘appartient’ à quelle espèce ? ?
ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE • ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE • *:* **:******** *** *** . ***:*****:*: :..**::***:***:* • ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE • ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ********:* *************:*** ****::*****:*** .************:* • ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ************************************************************ • ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE • ***:**:*:******************* ****::****:**:..*:*:**:******** • ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE • ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • *:* :* ******** *** .*** . **::*****:*: *.**::***:***** • ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE • ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE • ********:* *************:*** ****::*****:*** .************:*
Le principe • 1. Sélection: set de séquences de protéines ‘homologues’ • 2. Comparaison: alignement multiple • 3. Construction de l’arbre: ‘calculer les différences’
http://www.phylogeny.fr/ www.phylogeny.fr