1 / 43

第一章 生物信息学的发展和研究内容 (I)

生物信息学. 第一章 生物信息学的发展和研究内容 (I). 1 、什么是生物信息学?. 生物信息学是信息科学领域和生命科学领域的一门新兴的、应用型 交叉学科 。. 采用数理和信息科学的理论、技术和方法,分析生物学数据,研究 生命现象 的一门科学. 以计算机为主要工具,以 大量生物数据库 和分析软件为基础. 依赖于因特网. 为人类揭示生命的奥秘提供了一条新的途径. Sanger sequences insulin protein. Watson and Crick DNA model. 1955. Dayhoff’s Atlas. 1960.

lyn
Download Presentation

第一章 生物信息学的发展和研究内容 (I)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 生物信息学 第一章 生物信息学的发展和研究内容 (I)

  2. 1、什么是生物信息学? • 生物信息学是信息科学领域和生命科学领域的一门新兴的、应用型交叉学科。 • 采用数理和信息科学的理论、技术和方法,分析生物学数据,研究生命现象的一门科学 • 以计算机为主要工具,以大量生物数据库和分析软件为基础 • 依赖于因特网 • 为人类揭示生命的奥秘提供了一条新的途径

  3. Sanger sequences insulin protein Watson and Crick DNA model 1955 Dayhoff’s Atlas 1960 Sequence alignment 1965 ARPANET (early Internet) 1970 PDB (Protein Data Bank) Sanger dideoxy DNA sequencing 1975 GenBank database PCR (Polymerase Chain Reaction) 1980 1985 2、生物信息学发展简史

  4. NCBI SWISS-PROT database FASTA Human Genome Initiative BLAST EBI World Wide Web First bacterial genome Yeast genome First human genome draft 1990 1995 2000

  5. Human genome project (HGP) 2、生物信息学发展简史 • 生物信息学学科的迅速发展在90年代 Goals • identify all the approximately 20,000-25,000 genes in human DNA, • determine the sequences of the 3 billion chemical base pairs that make up human DNA, • store this information in databases, • improve tools for data analysis, • transfer related technologies to the private sector, • address the ethical, legal, and social issues (ELSI) that may arise from the project.

  6. Towards a Paradigm Shift in Biology Walter Gilbert, Nature 349:99 (1991) The new paradigm, now emerging, is that all “genes” will be known (in the sense of being resident in databases available electronically), and that the starting point of a biological investigation will be theoretical. An individual scientist will begin with a theoretical conjecture, only then turning to experiments to follow or to test that hypothesis. In vivo In vitro In silico

  7. 3、生物信息学的基本方法和技术 • 建立生物数据库 • 各种公共数据库 • 本地化数据库 • 数据库检索 • 各种数据检索工具的开发和使用 • Entrez检索体系 • BLAST检索体系

  8. 3、生物信息学的基本方法和技术 • 生物大分子序列分析 • Homologous sequence analysis(同源序列分析) • Multiple sequence alignment (多序列对位排列) Phylogenetic analysis(进化分析) • 基因结构、功能分析 Mapping (ePCR)、Exon/Intron、Promoter、Regulatory regions…… • 蛋白质结构、功能分析 Motif、3-D structure、post-translational modification、interactions……

  9. 3、生物信息学的基本方法和技术 • 统计概率模型 • Hidden Markov model(隐马尔可夫模型) 基因识别和药物设计 • Maximum likelihood model(最大似然模型) 序列进化分析 • Bayesian network(贝叶斯网络) 调控网络构建 • 程序设计 • C/C++, Python, Perl

  10. (生物工作者) (数理和信息科学工作者) 4、生物信息学的研究内容 • 收集、整理、储存、加工、发布和分析生物学数据 The field of science in which biology, computer science and information technology merge into a single discipline • 发展新的数理和信息科学的技术和方法用于管理和分析生物数据

  11. 5、生物信息学的应用 • 基础研究和教学 • 分子生物学研究的重要手段之一 • 生命科学的教学 • 药物开发(Pharmaceutical Bioinformatics) • 新药筛选 • 药靶设计 • 分子药理学研究

  12. 5、生物信息学的应用 • 疾病诊断 • 利用疑难病症的病原DNA序列诊断疾病 • 遗传病 • 其他 • 环境监测 (Metagenomics) • 食品安全检测 • 海关检测

  13. 5、生物信息学的应用 Bioinformatics: computational analysis of genomics data 序列拼接 Sequence assembly

  14. Human Chromosome 6 5、生物信息学的应用 基因组注释 Genome annotation

  15. promoter TF binding site CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATG CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATGCAA TATGGACAATTGGTTTCTTCTCTGAAT ................................. ..............TGAAAAACGTA Transcription Start Site Ribosome binding Site ORF = Open Reading Frame CDS = Coding Sequence

  16. 5、生物信息学的应用 Assign structure to all proteins encoded in a genome 结构基因组 Structural genomics

  17. 5、生物信息学的应用 Genome-wide profiling of: • mRNA levels • Protein levels Co-expression of genes and/or proteins Functional genomics Identifying protein-protein interactions Networks of interactions

  18. Amin AR (2003) Arthritis Res. Ther. 5:76-79 5、生物信息学的应用 功能基因组 Functional genomics

  19. Synteny between Human chromosome 6 and Mouse 5、生物信息学的应用 比较基因组 Comparativegenomics • Gene location • Gene structure • Exon number • Exon lengths • Intron lengths • Sequence similarity • Gene characteristics • Splice sites • Codon usage • Conserved synteny

  20. 5、生物信息学的应用 Omics Genomics, Transcriptomics, Proteomics, Metabolomics…

  21. 生物信息学 第一章 生物信息学的发展和研究内容 (II)

  22. 5、生物信息学的应用 Xenopus MALWMQCLP-LVLVLLFSTPNTEALANQHL Bos MALWTRLRPLLALLALWPPPPARAFVNQHL **** : **.*: *:..* :. *:**** Xenopus CGSHLVEALYLVCGDRGFFYYPKIKRDIEQ Bos CGSHLVEALYLVCGERGFFYTPKARREVEG ***************:******* :*::* Xenopus AQVNGPQDNELDG-MQFQPQEYQKMKRGIV Bos PQVG---ALELAGGPGAGGLEGPPQKRGIV .**. ********* Xenopus EQCCHSTCSLFQLENYCN Bos EQCCASVCSLYQLENYCN *****.***:*******

  23. Smith et al. (2009) Nature 459, 1122-25 Molecular evolution Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic

  24. Heat map 5、生物信息学的应用 Analysis of geneexpression Filtering Background correction Normalization Summarization Imputation

  25. Toledo and Bardot (2009) Nature 460, 466-467 5、生物信息学的应用 Analysis of regulation

  26. Molecular docking 5、生物信息学的应用 新药研制的两大瓶颈 Phmaceutical 靶标生物大分子的确定及验证 Protein structure prediction 具有生物活性的小分子药物的设计和发现

  27. 传统流程 改进流程 5、生物信息学的应用 时间、金钱 COMPUTER-AIDED DRUG DISCOVERY

  28. 5、生物信息学的应用 Pharmaceutical Bioinformatics

  29. Luscombe, Greenbaum, Gerstein (2001) 5、生物信息学的应用

  30. 6、本课程主要内容 利用国际上共享的数据库和分析软件 • 检索数据库 • 文字数据(文献)的检索 • 序列(DNA、蛋白质)数据的检索 • 其他(三维结构、网络图等)数据的检索 • 分析和解释实验数据(核苷酸和蛋白质序列) • 序列数据的检索和分析 • 比较基因组学(comparative genomics) • 进化分析

  31. 课程组成 • 生物信息学学科的发展和研究内容 • 生物数据库 • 关键词或词组为基础的数据库检索 • 核酸和蛋白质序列为基础的数据库检索 • 多序列对位排列分析和系谱分析 • 基因预测和基因结构分析 • 蛋白质性质和结构分析 • 农业类数据库的利用 • 核酸序列的其他分析方法 • 基因芯片表达谱分析

  32. Sequence analysis Analysis of gene expression Analysis of regulation Prediction of protein structure Genome annotation Comparative genomics 学习本课程的目的 • 了解各种生物数据库 • 掌握利用Internet上的各种数据库、软件,查找生物相关信息,分析和解释各种生物数据。

  33. David W. Mount. Bioinformatics: Sequence and Genome Analysis. (2nd edition) New York: Cold Spring Harbor Laboratory Press, 2004. • 钟扬等译,生物信息学(第一版),高等教育出版社,2003。 参考教材

  34. A. D. Boxevanis and B. F. F. Ouellette. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. (3rd edition) New York: Wile-Interscience, 2004. 参考教材 • 周艳红、王石平,生物信息学,高等教育出版社,2007。

  35. 教学网站 http://nhjy.hzau.edu.cn/kech/swxxx/ 华农主页-南湖教苑-精品课程-国家精品课程-2007年国家精品课程-生物信息学 获取课件(仅限校园网内) http://disk.hzau.edu.cn——提取文件——提取码:bioinf

  36. 生物信息学 第一章 生物信息学的发展和研究内容 (上机操作)

  37. 上机操作 初步了解Internet上的数据库和分析工具 自学课程 http://www.ncbi.nlm.nih.gov/education http://www.ebi.ac.uk/2can/home.html

  38. 上机操作 浏览本年度NAR数据库专刊的数据库列表 http://www.oxfordjournals.org/nar/database/c/ • Sequences (DNA, protein) • Genomics • Mutation/polymorphism • Protein domain/family • Proteomics (2D gel, Mass Spectrometry) • 3D structure • Metabolic networks • Regulatory networks • Bibliography • Expression (Microarrays,…) • Specialized

  39. 上机操作 在NAR数据库列表中选取一个自己感兴趣的数据库 • 任务一:亲自试用所选数据库,然后文字介绍数据库并简要评论,说明该数据库可能会为你解决什么样的生物问题。 • 任务二:将上述内容制作成约5-10页PPT,向他人介绍你选择的数据库。

  40. 上机操作 • 格式如下: • 标题:标题应为简明易懂的一句介绍,比如上图的数据库,可以写:AnimalTFDB: 动物转录因子数据库 • 标签:选择该数据库的分类,可多选 • 内容包括:英文原文Title、Authors、Abstract、期刊期号及页码,然后是你翻译的摘要或撰写的中文介绍,最后是评论

  41. 生物信息学是联系各个生物学科的桥梁

  42. 不同层次的生物数据 Use of computational tools to discover new information in complex data sets (from the one-dimensional information of DNA through the two-dimensional information of RNA and the three-dimensional information of proteins, to the four-dimensional information of evolving living systems).

  43. The 20th annual Database Issue of Nucleic Acids Research includes 176 articles, half of which describe new online molecular biology databases and the other half provide updates on the databases previously featured in NAR and other journals. This year’s highlights include two databases of DNA repeat elements; several databases of transcriptional factors and transcriptional factor-binding sites; databases on various aspects of protein structure and protein–protein interactions; databases for metagenomic and rRNA sequence analysis; and four databases specifically dedicated to Escherichia coli. The increased emphasis on using the genome data to improve human health is reflected in the development of the databases of genomic structural variation (NCBI’s dbVar and EBI’s DGVa), the NIH Genetic Testing Registry and several other databases centered on the genetic basis of human disease, potential drugs, their targets and the mechanisms of protein–ligand binding. Two new databases present genomic and RNAseq data for monkeys, providing wealth of data on our closest relatives for comparative genomics purposes. The NAR online Molecular Biology Database Collection, available at http://www.oxfordjournals.org/nar/database/a/, has been updated and currently lists 1512 online databases. The full content of the Database Issue is freely available online on the Nucleic Acids Research website (http://nar.oxfordjournals.org/).

More Related