生物信息学 Bioinformatics 第 2 讲生物信息学研究内容

生物信息学Bioinformatics第2讲 生物信息学研究内容主讲教师：刘吉平 liujiping@scau.edu.cn 2004年3月

生物信息学 • 主要介绍的内容： • 什么是生物信息学？ • 国内外生物信息学的研究历史和现状。 • 生物信息学的研究内容和科学目标。 • 分别解读生物分子的三大核心数据库：GenBank核酸序列数据库、SWISS-PORT 蛋白质序列数据库、 PDF生物大分子结构数据库。 • 介绍国内外有关生物信息学的网站和网址。

生物信息学 • 在yahoo.com.cn上找有关生物信息学的网站或网页

Protein DNA (Genotype) Biology Phenotype

基因结构

The 4 bases Thymine Adenine H H H C A-T o N H H H N C C C c C N H N C H N C N C N C o H Purine ring Pyrimidine ring H Note: this is flat! H o H N H N C C Uracil replaces T in RNA C c C C N H N H N C N C G-C N C o N H Cytosine Guanine H

三研究内容 • 生物信息学与计算生物学或生物计算有着密切的关系，但又不尽相同. • 目前归入生物信息学研究领域的大致有以下七个方面：

Bioinfomatics七个方面研究内容 • 建立和管理各种生物数据库 • 生物信息数据库使用 • 生物信息学中的数学模式和算法研究 • 数据库接口和检索工具的研制 • HGP的实施，对信息采集和处理提出的要求 • 生物信息学最重要的任务，是从大量数据中提取新知识 • DNA芯片和微阵列的发展

1 建立和管理各种生物数据库 • 各种生物数据库的建立和管理。如核酸序列数据库、蛋白质数据库、各种专业的数据库等。 • 这是一切生物信息学工作的基础，通常要有计算机科学背景的专业人员与生物学家密切合作。

2、生物信息数据库使用 近些年来随着快速序列测定、基因重组、多维核磁共振等技术的应用，基因组与蛋白质的实验数据呈爆炸性趋势增长; 建立数据库再结合有关的分析软件使大规模数据的贮存、处理和分析成为可能，并已发展成为包括基因组信息与蛋白质结构模拟在内的生物信息学研究的重要基础。

核酸序列数据库 • Genbank，美国国家生物技术信息中心的数据库（ http://ncbi.nhm.nlm.gov）。 • EMBL，建立在欧洲分子生物实验室的数据库 (http://www.embl-heidelberg.de)。 • DDBJ，是DNA Data Bank of Japan的简称，又叫日本的DNA数据库银行（available at http://www.nig.ac.jp )。

Genbank • 美国国家生物技术信息中心的数据库 • 原中山医科大学的网页有链接： http：//www.gzsums.edu.cn/ 该数据库提供Entrez检索工具、BLAST序列搜索、生物信息学学习等服务内容

其他重要数据库 • 真菌如酿酒酵母基因组数据库（SGD） http://genome-www.stanford.edu/Saccharomyces/ • 拟南芥数据库（AtDB）(http://genome-www.stanford.edu/Arabidopsis/) • 线虫综合数据库（ACEDB） ftp://sanger.ac.uk(/pub/acedb) (自由下载,建立二次数据库) • 在线人类孟德尔遗传数据库(Online MendelianInheritance in Man,OMIM)http://www3.ncbi.nlm.nih.gov/omim/

其他重要生物数据库 • 鱼类的斑马鱼 http://zfin.org/ • 昆虫类的果蝇(Drosophila melanogaster, fruitfly) http://www.fruitfly.org/ • 脊椎动物如小鼠(Mus musculus) http://www.ncbi.nih.gov/genome/guide/mouse/ • 细菌如大肠杆菌(http://www.genetics.wisc.edu/pub/sequence/) • 原生动物如人类一种寄生性的原虫(Plasmodium falciparum):http://PlasmoDB.org/

三维结构数据库 • PDB（ Protein Data Bank , http://www.ipc.pku.edu.cn/npdb ）等。 • 与蛋白质结构有关的数据库还有： • SCOP（available at http://www.ipc.pku.edu.cn/scop/）等。

80-99年Protein Data Bank http://www.rcsb.org/pdb/index.html

Helix-turn-helix motif of protein binding to DNA结合DNA的蛋白质螺旋结构基序 • Motif数据库----PROSITE • PROSITE(http://www.expasy.org/prosite/)

蛋白质结构数据

生物信息数据库的主要服务 借助特定的算法模型提供同源性分析是目前各种生物信息数据库的最重要内容之一。

分子生物学的中心法则 DNA 复制 DNA 转录反转录 mRNA cDNA 翻译蛋白质/酶折叠相互作用功能结构

3、生物信息学中的数学模式和重要算法研究 迄今已有相当多的数学方法应用于生物信息学的研究。而且一种算法本身就是一门学问，例如： • 机器学习法 • 人工神经网络 • 分形理论 • 密码学 • 全息论 • 高维分布的统计方法

生物信息学中的重要算法---聚类分析 • 生物信息学问题许多可归为聚类问题。 • 聚类分析：聚类是宏观与微观生物学研究中最常用的一种数学方法，它的基本目的是将n个样本划分为m个类，从而使同类样本较为相似而不同类间样本差异较大。 • 其中支撑矢量机算法可从网上学习： http://www.kernel-machine.org/ • 寻找转录因子的结合位点

生物信息学中的重要算法 • 遗传算法：遗传算法的提出，本身就是借鉴生物界中的适者生存、优胜劣汰的遗传机制所提出来的随机化搜索方法，其最主要的特点就是面向结构对象、不受求导和函数连续性的限定、具有内在的隐并行性和良好的全局寻优能力。

生物信息学中的重要算法-----遗传算法 过去20多年的发展，已使得遗传算法成为现代智能计算中的关键技术之一，并已应用于生物信息学的研究： • 基于蛋白质主链结构的侧链构象计算 • 蛋白质折叠的算法模型与模拟 • 图像匹配中的遗传算法 • 结构图的同态研究

目前较流行的数学方法和算法（1） 神经网络（Neural Networks） 1982年，神经网络首次被应用到生物学的研究中来，接着Stormo等人应用类似的算法在预测大肠杆菌体内的一些蛋白质翻译的起始部位取得了成功。 1988年，随着Qian and Sejnowski发表的一篇关于蛋白质二级结构预测的文章，神经网络的算法已成为蛋白质二级结构分析预测的主流算法。另外，神经网络在预测信号肽，研究遗传密码的结构和起源等方面也有较多应用。

目前较流行的数学方法和算法（2） Threading方法 Threading方法或称折叠类型的识别方法。基本思想是：预测的蛋白的折叠类型与某一已知结构的蛋白的折叠类型相同，这样蛋白质结构预测问题就转变为在已知空间结构的蛋白质中，选取一种最有可能的折叠类型，从而大大减小预测蛋白质结构的难度。

4 数据库接口和检索工具的研制 • 数据库的内容来自万千生物学者的日积月累，最终又为生物学者们所用。但不能要求一般生物学工作者具有高深的计算机和网络知识，因此，必须发展查询数据库和向库里提供数据的方便接口。这是专业人员才能胜任的工作，通常在生物信息中心里进行。

5 HGP的实施，对信息采集和处理提出的要求 • 人类基因组计划(HGP)的实施，配合大规模的DNA自动测序，对信息的采集和处理提出了空前的要求。从各种图谱的分析，大量序列片段的拼接组装，寻找基因和预测结构与功能，到数据和研究结果的视像化，无不需要高效率的算法和程序。 • 因此，研究新算法、发展方便适用的程序，是生物信息学的日常任务。

与HGP相关研究的几个方面表现： • 由于当前生物信息学发展的主要推动力来自HGP，所以生物信息学与HGP的关系就显得更为密切，其与HGP相关的研究主要表现在如下几个方面：

1）高度自动化的实验数据的获得、加工和整理1）高度自动化的实验数据的获得、加工和整理 • 如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息，是生物学的一个重要课题。 • 体现在各种自动化分子生物学仪器应用上，如DNA测序仪，PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息，并对其作简单分析，再将分析结果用于实验条件的控制，完成高度自动化的实验过程。

2）序列片段的拼接 • 目前DNA自动测序仪每个反应只能测序500bp左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。 • 传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。 • 现在生物信息学提供了自动而高速地拼接序列的算法，不仅避免了亚克隆排序所需的大量繁琐的工作，还能使序列具有一定的冗余性（redundancy，即一定数量的重复）以保证序列中每个碱基的准确性。

3）基因区域的预测 • 在完成序列的拼接后，我们得到的是很长的DNA序列，甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因，下一步就是将基因区域从这些长序列中找出来。 • 所谓基因区域的预测，一般是指预测DNA顺序中编码蛋白质的部分，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA box和加尾信号)的认识，预测出可能的完整基因。

（4）基因或蛋白质功能预测 • 用实验手段证实一个预测的新基因后，下一步要做的就是寻找这个基因的功能。----即功能基因组学 • 蛋白质功能预测分析，主要是分析目的蛋白质是否与具有功能信息的已知蛋白质相似。策略有二： • 同源序列分析 • 功能区相关的保守序列特点分析。

（5）分子进化的研究 • 通过上述种种方法我们可以预测出一个新基因可能具有的功能。然而预测新基因只是生物信息学研究的一个方面，这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。 • 对于基因组研究来说，一个重要的研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同，可以大大加深我们对生物进化的认识。这方面的研究已逐步形成一个称为比较基因组学（Comparative Genomics）的新学科。

Human genome shares 223 genes with bacteria-genes that do not exist in the worm, fly, or yeast.A reticulated tree, or net, which might more appropriately represent life's history.

6 生物信息学最重要的任务，是从大量数据中提取新知识 • 生物信息学最重要的任务，是从海量数据中提取新知识。这首先是从DNA序列中识别编码蛋白质的基因，以及调控基因表达的各种信号。 • 其次，从基因组编码序列翻译出的蛋白质序列的数目急剧增加，根本不可能用实验方法一一确定它们的结构和功能。 • 从已经积累的数据和知识出发，预测蛋白质的结构和功能，成为常规的研究任务。

7 DNA芯片和微阵列的发展 • DNA芯片和微阵列的发展，把一定组织或生物体内万千基因时空表达的研究提上日程．研究基因表达过程中的聚群关系，从中提取调控网络和代谢途径的知识，进而从整体上模拟细胞内的全部互相辅合的生化反应，在亚细胞层次理解生命活动。

基因芯片检测系统

Bioinfomatics七个方面研究内容 • 建立和管理各种生物数据库 • 生物信息数据库使用 • 生物信息学中的数学模式和方法研究 • 数据库接口和检索工具的研制 • HGP的实施，对信息采集和处理提出的要求 • 生物信息学最重要的任务，是从大量数据中提取新知识 • DNA芯片和微阵列的发展此外，专业人材的培养，也是一个重要内容。

四、展望 • 作为计算机科学和数学应用于分子生物学而形成的交叉学科，生物信息学已经成为基因组研究中必不可少的有力研究手段。为了能够更好地服务于基因组研究，生物信息学在将来的发展中需要做以下几方面的努力：

（1）理论研究 • 任何学科的发展都离不开基础理论的研究，生物信息学也不例外。它对许多学科都提出了巨大的挑战。 • 这些学科包括分子进化遗传学、群体遗传学、统计生物学、基因组学以及计算机科学和应用数学的相关学科。如果基础理论研究得不到应有的发展，生物信息学的发展将受到严重的阻碍。

（2）生物数据的质量监控 • 监控已有的生物数据究竟具有多大的可信度，对于物理图谱的构建工作将有十分重大的意义。

（3）加强生物学家和计算机科学家以及数学家之间的沟通（3）加强生物学家和计算机科学家以及数学家之间的沟通 • 长期以来，这三类科学家都是埋头于各自的研究领域，而不关心其他学科的发展和要求。这种状况在我国尤为突出。生物信息学的发展要求三者之间加强沟通。其意义不仅在于推动生物信息学自身的发展，而且将形成促进整个生物学发展的强大动力。 • 生物信息学作为基因组研究的有力武器，被广泛地用来加快新基因的寻找过程，以达到将"有用"新基因抢先注册专利的目的。在这场世界范围内的竞争中，中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况，将有限的投资投入以求获得最大可能的科学研究以及商业回报，是一个无法回避的新课题。

我国科学家展望 • 我国科学家认为，在克隆新基因的思路方面，我国不应该照搬国外克隆新基因所用的方法，而应该走生物信息学和定位克隆相结合的道路。 • 具体地说就是一方面进行各种遗传疾病家系的采集，从家系分析入手，寻找致病基因在染色体上的位置，然后对这个区域进行测序，再利用生物信息学的手段预测候选基因和它的功能并用实验加以证实； • 另一方面直接从现有公共数据库中的EST出发，用生物信息学的方法寻找可能有研究价值的新基因，并用实验方法来研究证实。这种双管齐下克隆新基因的方法可能更适合我国人类基因组研究在财力、物力和研究人才资源等方面的客观条件。

在生物信息学学科建设方面 • 在生物信息学学科建设方面，政府应注意加强生物信息学学科建设的延续性，克服青年科技人员流动性大等困难，有重点地把工作长久地开展起来，尽快设立相关的学位，以利于对后继人才的培养；适当地支持拥有我国自主知识产权的算法、软件的后继开发、包装工作，这不仅仅因为其潜在的商业利润，更要逐渐确立中国在世界生物信息学领域的地位。

在生物信息系统的构建方面 • 国家应当集中创建一两个具有一定规模的生物信息中心，建立面向全国的生物学数据库检索和数据分析系统。这个系统的建立可以分两步走。 • 第一步我们要将国外公共数据库中的内容和相关软件收集和集中起来，提供检索和下载。 • 第二步是将这些资源有机地组合，建立一个统一的生物信息平台。通过这个平台用户可以将各种格式的数据提交给设在生物信息中心的服务器，在服务器上进行一系列的检索和数据分析。用户不必关心各种数据库和软件的输入输出格式，只需一个简单的客户端软件甚至只需一个WWW浏览器就能完成全部工作。整个生物信息平台不仅是一个集成的数据库，而且是一个集成的软件工具。

在生物信息学理论研究方面 • 发挥国人的聪明才智，加强数学算法研究 • 应用系统论、信息论，开展生物信息学理论研究 • 开展生物信息学的伦理道德研究 • 。。。。。。

结语相信在HGP和即将开始的中国人类基因组研究计划中，生物信息学将发挥越来越大的作用，并推动生物学进入一个全新的境界。

5、相关资源： • European Bioinformatics Institute EBI) • SBDS (Southampton Bioinformatics Data Server) • U.S. Department of Energy - Bioinformatics Infrastructure • The NASA Ames Center for Bioinformatics • The National Center for Biotechnology Information • Protein Data Bank (PDB)Mirror Site • 北京大学生物信息学中心 • 生物信息学专业网 • BioSino中国生物信息

6.参考链接: • 生物信息学 ——生物技术的核心(2000-04-03 ) • 西安成立生物信息研究中心(2000-05-16 ) • 海峡两岸理论生命科学交流逐步深入(2000-05-17 ) • 人类基因组测序能力中国超法德名列第四(2000-06-29 ) • 我国首家DNA序列公共数据库开通(2000-07-04 ) • 我国科学家“强强联合”勇攀生命科学制高点(2000-07-04) • 德国欲在人类基因组研究中取得领先地位(2000-07-05 ) • 德通过基因研究战略文件(2000-07-16 ) • 增强我国基因组研究整体实力的八点建议(2000-07-19 ) • 2000年北京市生物信息学项目评审会议召开(2000-08-10) • （根据“新生命”网站编辑整理，2000年10月31日）

生物信息学 Bioinformatics 第 2 讲生物信息学研究内容