序列的获取及提交

序列的获取及提交

一、序列的获取 • 1、实验室测序 • 1.1 核酸序列的测定 • 核酸的序列分析，即核酸一级结构的测定，是现代分子生物学中一项重要技术。目前应用的两种快速序列测定技术是Sanger等（1977年）提出的双脱氧链终止法及Maxam和Gilbert（1977年）提出的化学降解法，其中双脱氧链终止法是目前应用最多，最好的技术。

一、Sanger双脱氧链终止法原理 • 　　通常DNA的复制需要：DNA聚合酶，单链DNA模板，带有3'-OH末端的单链寡核苷酸引物，4种dNTP（dATP、dGTP、dTTP和dCTP）。聚合酶用模板作指导，不断地将dNTP加到引物的3'-OH末端，使引物延伸，合成出新的互补DNA链。如果加入一种特殊核苷酸，双　脱氧核苷三磷酸（ddNTP），因为它与普通dNTP不同，在脱氧核糖的3’位置缺少一个羟基，故不能同后续的dNTP形成磷酸二酯键。

例如，存在ddCTP、dCTP和三种其他的dNTP（其中一种为α-32P标记）的情况下，将引物、模板和DNA聚合酶一起保温，即可形成一种全部具有相同的5'-引物端和以ddC残基为3’端结尾的一系列长短不一片段的混合物。经变性聚丙烯酰胺凝胶电泳分离制得的放射性自显影区带图谱将为新合成的不同长度的DNA链中C的分布提供准确信息，从而将全部C的位置确定下来。采用类似的方法，在ddATP、ddGTP和ddTTP存在的条件下，可同时制得分别以ddA、ddG和ddT残基为3'端结尾的三组长短不一的片段。将制得的四组混合物全部平行地点加在变性聚丙烯酸受凝胶电泳板上进行电泳，每组制品中的各个组分将按其链长的不同得到分离，从而制得相应的放射性自显影图谱。从所得图谱即可直接读得DNA的碱基序列，见图所示。例如，存在ddCTP、dCTP和三种其他的dNTP（其中一种为α-32P标记）的情况下，将引物、模板和DNA聚合酶一起保温，即可形成一种全部具有相同的5'-引物端和以ddC残基为3’端结尾的一系列长短不一片段的混合物。经变性聚丙烯酰胺凝胶电泳分离制得的放射性自显影区带图谱将为新合成的不同长度的DNA链中C的分布提供准确信息，从而将全部C的位置确定下来。采用类似的方法，在ddATP、ddGTP和ddTTP存在的条件下，可同时制得分别以ddA、ddG和ddT残基为3'端结尾的三组长短不一的片段。将制得的四组混合物全部平行地点加在变性聚丙烯酸受凝胶电泳板上进行电泳，每组制品中的各个组分将按其链长的不同得到分离，从而制得相应的放射性自显影图谱。从所得图谱即可直接读得DNA的碱基序列，见图所示。

二、双脱氧链止终法测定战略 • 由于DNA一般都由几千个单核苷组成。而目前测定DNA序列的最好方法，一次也只能测约600个核苷酸，因此进行DNA顺序测定前，需要用不同限制酶消化等测DNA，使其降成小片段，分别克隆到pUC1,18pUCl18,pUC19,M13mp18,M13mp19等载体中，分别测定各小片段的顺序，由于不同限制酶产生的片段之间有交错重叠顺序，根据片段间和末端重叠序列，用计算机软件如Mac Vector TM5.0分析DNA，Assemblylign TM排列出各片段的位置，进而排出DNA的全序列。

三、双脱氧链终止法测定方法 • 1．M13噬菌体复制型双链DNA（RFDNA）的制备。 • 　　为了将待测双链DNA进行克隆，必须制备M13mp18或M13mp19复制型（闭环双链）DNA，从M9培养基中，挑起单个克隆大肠杆菌，JM101到50ml2×YT培养基中，37℃振荡过夜。稀释1ml培养物到50ml2×YT培养中，于37℃振摇6h，转移2ml培养物于微量离心管中，12000g，离心5min细菌沉淀保留用于分离复制型RFDNA，上清用于分离噬菌体单链DNA。 • 　　细菌沉淀用于分离复制型DNA，可以采用标准的碱解方法或采用天美公司的Wizard Miniperps DNA试剂盒制备。（方法同分离质粒DNA方法）。

2．重组噬菌体制备 • 　　采用多克隆位点上的限制性内加酶切割待测DNA，并采用相同内切酶切割M13噬菌体RFDNA（采用Biol 101gene clean Ⅱ试剂盒分别纯化内切酶切割后的DNA片段），然后将待测外源DNA片段与M13复制型载体DNA连接过夜，连接反应物转染JM101感受态细菌，将连接物10μl与200μl感受态细菌混匀，放置冰上40～50min，再放在42℃水浴2min，然后加入1ml新鲜的静止相JM101培养物混匀，然后分别以300μl于含有IPIG（200mg/ml）和X-gal200mg/ml的2×YT培养基上，于37℃培养8h即可出现蓝色和白色噬斑，白色或称无菌噬斑，即为阳性重组噬菌体。

3．单链噬菌体DNA（模板DNA）的制备 • 上述平板的每个白色噬菌斑是由一种重组M13DNA分子转染细菌后产生的，如果取一个白色噬菌斑进行培养便可得到一种单链形式的DNA。为此，挑取一个白色噬菌斑转接到一个新鲜制备的OD600=0.1的大肠杆菌JM101培养物中，于37℃振摇5h左右，12000g离心10min，上清转移到另一新微量离心管中用于分离单链DNA，按1ml上清液中加入含20%聚乙二醇PEG-6000的2.5m NaCl 200μl沉淀噬菌体，再用饱和酚抽提除去噬菌体蛋白，最后用1/10体积的3m NaAc和乙醇沉淀单链DNA，浓度调至0.1～0.5μg/μl，也可采用天美公司的Wizard TM M13DNA纯化试剂盒分离纯化M13单链DNA。

4．引物制备 • 可以购买通用引物或实验室合成15bp～26bp长度的引物，通常以2μg/ml的浓度贮存于-20℃备用。 • 5．微量滴板 • 进行大批量的模板测序时，常在密闭的微量离心管中进行与引物的退火反应，然后在微量滴板中进行链延伸-链终止反应。

6．变性聚丙烯酰胺凝胶 • 测序凝胶装置的大小形状均不相同，其主要参数有：①长度通常为40～50cm；②宽度通常为20cm；③厚度通常为0.3～0.4mm；④横截面形状为楔形或锥形，即顶部薄，底部厚，或者是将底部凝胶缓冲液的浓度提高；⑤加样槽；⑥整块凝胶上的温度应均一。 • 7．电泳后将凝胶干燥，放射自显影。

8．凝胶上读取DNA序列。 • 此时读取的是目的DNA的互补链3'～5'的序列。 • 传统用于ＤＮＡ测序的方法有毛细管微阵列电泳测序和焦磷酸测序等，毛细管电泳芯片

毛细管电泳（capillary electrophoresis，CE）对于ＤＮＡ测序、司法鉴定、ＰＣＲ产物分析来说是一个强有力的手段。与平板凝胶电泳相比，毛细管电泳能更快速、更准确地分离ＤＮＡ片段，这是因为可以在毛细管两端加上更高的电压。毛细管电泳的缺点是一次只能分析一个样品，毛细管微阵列电泳将平板凝胶电泳和毛细管电泳两种方法的优点结合起来，在毛细管微阵列上并行地进行电泳，它能增大电泳泳道数目、提高电泳速度，是一种有着巨大应用前景的方法。

在毛细管电泳的基础上，近几年发展出集成度更高的集成毛细管电泳技术。集成毛细管电泳技术是在硅、玻璃、塑料等基体上刻蚀出毛细管槽，用盖板封闭好后，在毛细管中填入媒体，使电泳分离的整个过程集成到一块几平方厘米的基片上。集成毛细管电泳芯片具有高效、快速、试样用量少等优点，并已经在免疫测定、ＤＮＡ分析和测序、氨基酸和蛋白质分析、生物细胞研究方面得到应用。在毛细管电泳的基础上，近几年发展出集成度更高的集成毛细管电泳技术。集成毛细管电泳技术是在硅、玻璃、塑料等基体上刻蚀出毛细管槽，用盖板封闭好后，在毛细管中填入媒体，使电泳分离的整个过程集成到一块几平方厘米的基片上。集成毛细管电泳芯片具有高效、快速、试样用量少等优点，并已经在免疫测定、ＤＮＡ分析和测序、氨基酸和蛋白质分析、生物细胞研究方面得到应用。 • 这些方法往往技术要求高、成本贵，而且容易出错。比较而言，新方法通过逐个观察ＤＮＡ片段上碱基的颜色来确定序列，精确度很高。

自动测序 • 自动测序：在识别系统中，数据的获取是指传感检测、采样和量化的过程。现有的过程检测数据获取的程序是：利用检测传感器，把制造过程要求探测的物理参数转换成相应的电信号（电压或电流信号），对该信号进行适当的预处理，再经模／数（A／D）转换后输入计算机系统，以便进行信号的后处理、特征提取和识别。对于计算机系统来讲，通过数据获取输入后，得到的是一维（如RNA单链等）、二维或三维（如蛋白质结构）图像或物理参数的数字信号。

使用4或8道毛细管电泳测序。 • 常规单批测序时间：60min以内。 • 可连续对样本进行自动分析。 • 测序准确性：600bp内准确性达99.5%以上。 • 自动进样，自动灌胶，光路校准。 • 检测系统：最好使用光栅全波长双束分光和低温CCD成像。 • 毛细管长度：36和50cm。 • Windows界面软件，配有电脑工作站。 • 分析软件：基本配置要求为测序软件。 • 常用耗材（胶和测序试剂盒）：RMB¥9.0左右/1次测序反应。

基因组序列则采用鸟枪法对进行测定和拼接。

1.2 蛋白质序列的测定 • 现有的肽和蛋白质测序方法包括Ｎ末端序列测定的化学方法Edman法、Ｃ末端酶解方法、Ｃ末端化学降解法等，这些方法都存在一些缺陷。例如作为肽和蛋白质序列测定标准方法的Ｎ末端氨基酸苯异硫氰酸酯(phenylisothiocyanate)PITC分析法(即Edman法，又称PTH法)，测序速度较慢(50个氨基酸残基/天)；样品用量较大(nmol级或几十pmol级)；对样品纯度要求很高；对于修饰氨基酸残基往往会错误识别，而对Ｎ末端保护的肽链则无法测序。

Procise 494a sequencer

Ｃ末端化学降解测序法则由于无法找到PITC这样理想的化学探针，其发展仍面临着很大的困难。在这种背景下，质谱由于很高的灵敏度、准确性、易操作性、快速性及很好的普适性而倍受科学家的广泛注意。在质谱测序中，灵敏度及准确性随分子量增大有明显降低，所以肽的序列分析比蛋白容易许多，许多研究也都是以肽作为分析对象进行的。近年来随着电喷雾电离质谱(electrospray ionisation，ESI)及基质辅助激光解吸质谱(matrix assisted laser desorption/ionization，MALDI)等质谱软电离技术的发展与完善，极性肽分子的分析成为可能，检测限下降到fmol级别，可测定分子量范围则高达100000Da，目前基质辅助的激光解吸电离飞行时间质谱法(MALDI TOF MS)已成为测定生物大分子尤其是蛋白质、多肽分子量和一级结构的有效工具，也是当今生命科学领域中重大课题——蛋白质组研究所必不可缺的关键技术之一。目前在欧洲分子生物实验室(EMBL)及美国、瑞士等国的一些高校已建立了MALDI TOF MS蛋白质一级结构(序列)谱库，能为解析FAST谱图提供极大的帮助，并为确证分析结果提供可靠的依据。

蛋白质的质谱分析方式 • 质谱用于肽和蛋白质的序列测定主要可以分为三种方法：一种方法叫蛋白图谱(proteinmapping)，即用特异性的酶解或化学水解的方法将蛋白切成小的片段，然后用质谱检测各产物肽分子量，将所得到的肽谱数据输入数据库，搜索与之相对应的已知蛋白，从而获取待测蛋白序列。将蛋白质绘制“肽图”是一重要测列方法。第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子，通过分析相邻同组类型峰的质量差，识别相应的氨基酸残基，其中亚稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂.第三种方法与Edman法有相似之处，即用化学探针或酶解使蛋白或肽从Ｎ端或Ｃ端逐一降解下氨基酸残基，形成相互间差一个氨基酸残基的系列肽，名为梯状测序(laddersequencing)，经质谱检测，由相邻峰的质量差知道相应氨基酸残基。

1.3 结构文件的测定 • 通过X射线衍射和核磁共振图谱来对三级以上的结构进行分析。结构分的是生物学研究中最艰难的工作之一，因为结构与功能的关系紧密相关。所以研究离体蛋白时，如何在保持蛋白活性的同时对其结构进行分析是目前分子生物学以及生物信息学中最关心的课题。可以通过分子模型的模拟来对蛋白质的结构进行推测，但是在PDB等数据中是不接收这些模拟数据的。所以进一步的研究和发明一种新的蛋白质结构测定方法成为我们当前研究蛋白质组结构和功能时所面临的科学难题。

2、文献中获取 • 通过数据库管理员收集已发表的文献，从中获是核酸和蛋白质数据，再收录入数据库中，同时要标注出序列的文献来源。

二、提交序列到数据库 • 提交序列及其注解到公共数据库，重点介绍了与国际核苷酸序列协作数据库：DDBJ、EMBL和GenBank密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库的两种不同的方法，一种方法基于互联网，（例如，使用Bankit）,另一种方法使用Sequin,这是一个多平台程序，若同时具有网络连接有很大益处，不过这不是必需的。

本地序列信息的编辑 • Sequin也是一种很好的利用了NCBI数据模型的ASN.1编辑工具，而且在不久的将来会成为许多采用NCBI的序列分析工具的平台，因此，Sequin是可供选择的升级工具。 • Sequin是一种ASN.1编辑器。用ASN.1数据描述语言写成的NCBI数据模型，可用来使相关信息在描述器或特征项中保持在一起，特征项是典型的生物概念（如：基因，编码区，RNAs，蛋白质），这些概念通常在一条序列中有一个位置（一个或多个间隔）。描述器可用于传送应用于多个序列的信息，这样避免了重复输入同一条信息的多个拷贝。 • 编码序列特征，或CDS，是DNA或RNA和蛋白质序列的联系，随同正确的翻译表一起, 在有效性中其正确定位占据了中心位置。

在mRNA中正确地找到开放的读框架通常是很简单的, 并且有多种工具可供利用 [ 如：NCBI的ORF查找器(见章末列表)]，而且在Sequin中是作为一个函数（如下）；从一个较高级的真核生物获得正确的CDS间隔就不那么容易了：必须连接不同的外显子序列，这涉及许多方法， (如果给定蛋白质序列和正确的遗传密码的话, Sequin中的推荐间隔函数可以计算CDS间隔)。

如通过互联网或Sequin。有效性检查包含CDS间隔中的起始和终止密码子，该间隔具有合法的外显子/内含子一致边界，用合适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。如通过互联网或Sequin。有效性检查包含CDS间隔中的起始和终止密码子，该间隔具有合法的外显子/内含子一致边界，用合适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。

如何提交到互联网 • 三个数据库都设计了一种表格，以使DNA序列提交到自身的数据库中：DDBJ的Sakura(樱花开)、EBI的WebIn、和GenBank的BankIt。

DDBJ/EMBL和GenBank的一般联系信息以及提交DNA序列到这些数据库的入口。DDBJ/EMBL和GenBank的一般联系信息以及提交DNA序列到这些数据库的入口。 • DDBJ（信息生物学中心，NIG） • 地址：DDBJ，1111 Yata， Mishima，Shiznoka 411，Japan • 传真：81-559-81-6849 • E-mail • 提交： ddbjsub@ddbj.nig.ac.jp • 更新： ddbjupd@ddbj.nig.ac.jp • 信息： ddbj@ddbj.nig.ac.jp • 互联网 • 主页：http://www.ddbj.nig.ac.jp/ • 提交：http://sakura.ddbj.nig.ac.jp/ • EMBL（欧洲生物信息协会，EMBL分部） • 地址：EMBL Outstation, EBI, Wellcome Trust Genome Campus, Hinxton Cambridge, CB 10 1SD, United Kingdom • 电话：01.22.349.44.44 • 传真：01.22.349.44.68 • E-mail • 提交： datasubs@ebi.ac.uk • 更新： update@ebi.ac.uk • 信息： datalib@ebi.ac.uk • 互联网 • 主页：http://www.ebi.ac.uk/ • 提交：http://www.ebi.ac.uk/subs/allsubs.html • WebIn：http://www.ebi.ac.uk/submission/webin.html

GenBank（国家生物技术信息中心，NIH） • 地址：Gen Bank National Center for Biotechnology Information, Nationtional Library of Medicine, National Institutes of Health, Building 38A, Room 8N805, Bethesda MD 20894 • 电话：301-496-2475 • 传真：301-480-9241 • E-mail • 提交： gb-sub@ncbi.nlm.nih.gov • EST/GSS/STS batch-sub@ncbi.nlm.nih.gov • 更新： update@ncbi.nlm.nih.gov • 信息： datalib@ebi.ac.uk • 互联网 • 主页：http://www.ncbi.nlm.nih.gov/ • 提交：http://www.ncbi.nlm.nih.gov/Web/GenBank/submit.html • BankIt: http://www.ncbi.nlm.nih.gov/Web/BankIt/ • 其它资源，按照它们在本章中出现的顺序列出如下： • 分类学浏览器： http://www.ncbi.nlm.nih.gov/Taxonomy/tax.html

在DNA序列数据库中使用的遗传密码： • http://www.ncbi.nlm.nih.gov/htbin-post/Taxonomy/wprintgc?mode=c • 寻找ORF：链接到BLAST页上的读框架寻找器 • http://ncbi.nlm.nih.gov/gorf/gorg.html • DDBJ/EMBL/GenBank特征表文档可用WWW方式获得或者从EBI或NCBI的FTP服务器上得到PostScript文件。 • http://www.ncbi.nlm.nih.gov/collab/FT/ • http://www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html • ftp://ncbi.nlm.nih.gov/genbank/docs/ • ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/ • EMBL和GenBank数据库的版本信息 • EMBL ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc • GenBank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt • Sequin: DNA序列数据库的提交和更新工具 • http://www.ncbi.nlm.nih.gov/Sequin • EST, STS和GTS主页，获取信息和向这些特定GenBank数据库提交序列 • EST http://www.ncbi.nlm.nih.gov/dbEST • STS http://www.ncbi.nlm.nih.gov/dbSTS • GSS http://www.ncbi.nlm.nih.gov/dbGSS • HTGS主页：高吞吐量基因组序列资源，工具和信息 • http://www.ncbi.nlm.nih.gov/HTGS

序列的获取及提交

序列的获取及提交

Presentation Transcript