840 likes | 1.24k Views
第七 章 生物信息学数据库 Bioinformatics database. 一、概述. 生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告). 二、生物信息学数据库种类. 《 Nucleic Acids Research》 杂志每年的第一期中详细介绍最新版本的各种数据库。 在 2000 年 1 月 1 日出版的 28 卷第一期 115 种通用和专用数据库。
E N D
一、概述 生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)
二、生物信息学数据库种类 • 《Nucleic Acids Research》杂志每年的第一期中详细介绍最新版本的各种数据库。 • 在2000年1月1日出版的28卷第一期115种通用和专用数据库。 • 至2008年,生物信息学数据库总数已达1078个。比2007年增加110个。
1.核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库 相关数据库及其主要分类
核酸序列数据库 • 内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释 国际核酸序列委员会协作组: • GenBank美国基因数据银行 http://www.ncbi.nlm.nih.gov/ • Embl 欧洲分子生物实验室 http://www.ebi.ac.uk/embl.html • DDBJ日本核酸数据库 http://www.ddbj.nig.ac.jp 整合平台:Entrez 综合数据库 http://www.ncbi.nlm.nih.gov 序列通过正式递交进入数据库 未正式发表文献以前,数据库予以保密
蛋白质序列数据库 • SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库 http://www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能 • NCBI 蛋白质数据库 包括所有蛋白质序列,及其翻译产物序列 http://www.ncbi.nlm.nih.gov/entrez • PIR 蛋白质序列信息资源库(美、德) • http://pir.georgetown.edu
蛋白质结构数据库 • PDB Protein DataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库 http://www.rcsb.org/pdb/ • NCBI STRUCTURE MMDB (Molecular Modelling DataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库 • SCOP (Structural classification of proteins) 英国医学研究会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类数据库。包含描述蛋白质域的家族、超家族、折叠、等级等信息。http://scop.mrc-lmb.cam.ac.uk/scop
基因组数据库图谱和显示器 • 主要内容:有基因组结构、基因单位、基因组图谱等(遗传图、叠连群图、放射杂交图等) • 分布:由各国基因组研究中心组建,分布在世界各地的信息中心、研究机构。代表性的有: • 美国人类基因组数据库GDB http://www.gdb.org • 美国NCBI基因组数据库Genome http://www.ncbi.nlm.nih.gov • 英国人类基因图谱数据库 HGMPGenomeWeb http://www.hgmp.mrc.ac.uk/genomeWeb/ • 美国人类基因组资源整合体系http://www.ncbi.nlm.nih.gov/genome/guide/human/
人类疾病与基因数据库 • OMIM 孟德尔遗传信息数据库 http://www.ncbi.nlm.nih.gov • CGAP The Cancer Genome Anatomy Project 肿瘤基因组图谱知识库 http://www.ncbi.nlm.nih.gov/ncicgap 美国国立癌症研究所为解剖肿瘤细胞分子而建立。
生物信息分析工具 • BLAST 序列相似性对比 • PRIMER 引物设计 • 蛋白质结构预测数据库 (EMBL)根据已知蛋白质序列,预测同族二级、三维等结构 • 蛋白质功能预测数据库 (EMBL )根据已知蛋白质序列,预测蛋白质功能
我国生物信息相关网站 • 中国生物信息网 http://www.biosino.org • 北京大学生物信息中心 http://www.cbi.pku.edu.cn 中国生物技术信息网 http://www.biotech.org.cn/ • 中国科学院(上海文献中心) http://www.cshq.ac.cn • http://www.lifescience.org.cn/tushug/
三、 生物信息数据库检索 • 集成检索系统: • Entrez系统(整合库)美国生物技术信息中心研制 • http://www.ncbi.nlm.nih.gov • SRS系统(Sequence Retrieval System)欧洲分子生物学实验室开发http://srs.ebi.ac.uk/ • 可开放式安装100多个数据库,北京大学安装了78个数据库
1.Entrez NCBI综合数据库 • 是1991年由美国生物信息技术中心(National Center for Biotechnology Information,NCBI)(http://www.ncbi.nlm.nih.gov)
Entrez用途 • 检索大分子生物学数据 • 获取GenBank, EMBL等数据库的核酸序列 • 获取Swiss-port,PIR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列 • 获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(MMDB)等其他生物信息数据库检索 • PubMed书目文献数据
功能栏 核酸序列检索 检索字段限制 序列片段限定 基因位置限定 数据更新 日期限定 分子类型选择
序列存取号 基因定义 数据库标识符
代码 物种来源 参考文献 专业评论 特性
碱基数 原序列复制后,可到BLAST中进行相似性 对本
2. BLAST序列相似性检索 • Basic Local Alignment SearchTool • 是核酸和蛋白质序列的局部对准相似性检索工具
序列相似性检索 • Blast是为从相同和不同的有机体中,提供对比核酸或蛋白质序列,寻找相似性序列片断的工具。 • 从通过寻找不同基因的相同序列片段,可以推断最新测定的基因功能、预测基因家族的新成员、探索基因的进化关系。 • 在基因组测序的工作中,序列相似性检索可以预测蛋白质代码和翻译产物的功能和定位。
基因组对比 选择对比程序 特殊对比
序列对比报告 对比资源 类似性图谱
对比图谱报告 数据库标识符 类似性积分 基因定义 E值为匹配期望值。说明可以找到与搜索序列相匹配的其它序列的几率。E值越接近零,越不可能找到其它的匹配序列,其背后的含义就是E值越少,匹配度越好
基因表达库链接 点击可得待检序列与库存序列对排 基因信息库 单基因库
序列对排报告 对排序列 不一致处
3.NCBI structure 提供为研究蛋白质三维(3D) 结构集成的二个数据库: • 分子模型数据库(MMDB),提供关于各种蛋白质的结构信息; • 蛋白质域数据库(CDD),提供在proteins(CDs)内保存的功能领域序列和结构对准表达目录。 这两个数据库让科学家检索和观看结构,从结构上查找特定蛋白质的相似蛋白质,并且辨认功能位点。
Structure检索步骤 第一步: 在Entrez sturcture检索栏中直接输入的检索词包括: PDB 代码, 蛋白质名字, 作者, 或期刊名。 第二步: 通过Entrez 列阵搜寻,得出检索初步结果 。 也许出现多个指定的蛋白质存在的记录, 它们反映了不同的实验性技术情况, 并且出现或缺乏各种各样的配合基或金属离子。 记录也许并且包含全长分子的不同片段。另外,还有许多突变体蛋白质结构,用户要注意筛选。检索结果同时包含了 PDB记录,包括实验性描述, PDB 代码。
第三步:显示结构概略页 • 观察次要结构 Secondary Structure按钮对观看3D 分子的结构是有用的前奏 第四步:观看完整蛋白质结构按钮Full Protein Structures(须下载Cn3D软件) Viewing 3D Structures
检索MMDB • 例:查找铁氧化还原蛋白的三维结构 • 蛋白质代码:1doi • 铁氧化还原蛋白:ferredoxin fe
执行检索 1doi 输入检索提问
Structure 记录 蛋白质描述:来自死海古菌的铁氧化还原蛋白 蛋白质代码
Structure Summary 参考文献 蛋白质描述 作者 生物体分类名称 下载显示软件 显示3D结构 蛋白质链栏。鼠标放在栏上,显示残基数。点击显示分子各条链、邻族结构。 显示序列报告 显示存储域
蛋白质链栏点击链接 鼠标放在链栏上,界面显示残基号
死海高盐环境下,生物体蛋白的适应结果,外周结构中有许多亲水键,更容易结合钾离子,中间红色部分为铁离子,他们的结合位点清晰可见。死海高盐环境下,生物体蛋白的适应结果,外周结构中有许多亲水键,更容易结合钾离子,中间红色部分为铁离子,他们的结合位点清晰可见。 透视图选择 旋转放映
4.NCBI基因组数据库GENOME • 美国国家生物技术信息中心NCBI整合。 • Genome 数据库借助Entrez Map Viewer (图形显示器软件),让用户观看数据库内带有综合遗传和自然图的各种有机体基因组、全部染色体、序列集成数据。
序列显示 基因命名数据库 蛋白质库 同源基因 模型制作 生物学证据 Viewer
5. OMIM • Online Mendelian Inheritance in Man孟德尔遗传数据库 • 由美国Johns Hopkins大学建立。现也属NCBI集成系统中的一个库。它主要报道人类基因和遗传缺陷相关疾病的文字信息、图片和参考文献,被称为人类基因及其相关疾病与遗传特征的百科全书
例: 查找与疾病相关的基因 通过OMIM寻找疾病基因信息,通过染色体定位找到疾病基因。 如:查找角化过度症(营养不良性神经病) Keratoderma,palmoplantar