860 likes | 1.09k Views
序列比对与数据库搜索. 序列比对及其作用. 1 、. 利用 BLAST 进行数据库搜索. 2 、. 3 、. CLUSTALW 与多序列比对. 序列比对及其作用. 序列比对的目的:. 从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系. 通过判断两个序列之间的相似性来判定两者是否具有同源性. 相似性:. 直接的数量关系,如:序列之间相似部分的百分比. 同源性:. 质的判断,两个基因在进化上是否曾有共同祖先的推断. BLAST.
E N D
序列比对及其作用 1、 利用BLAST 进行数据库搜索 2、 3、 CLUSTALW与多序列比对
序列比对及其作用 序列比对的目的: 从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系 • 通过判断两个序列之间的相似性来判定两者是否具有同源性 相似性: • 直接的数量关系,如:序列之间相似部分的百分比 同源性: • 质的判断,两个基因在进化上是否曾有共同祖先的推断
BLAST • 基本局部比对搜索工具 (Basic Local Alignment Search Tool) • NCBI 上 BLAST 服务的网址: http://www.ncbi.nlm.nih.gov/blast/ • NCBI 的 BLAST 程序及数据库下载网址: ftp://ftp.ncbi.nlm.nih.gov/blast
选择物种 选择blast程序
Query Sequence Amino acid Sequence DNA Sequence BLASTp tBLASTn BLASTn BLASTx tBLASTx Translated Translated Protein Database Nucleotide Database Nucleotide Database Protein Database Nucleotide Database
与核酸相关的数据库 与蛋白质相关的数据库
序列或目标序列的GI号 以文件格式上传 选择数据库
配对与错配 空位罚分
PSI-BLAST: 位点特异迭代
打分矩阵: • PAM 30 • PAM 70 • BLOSUM80 • BLOSUM62 • BLOSUM45
选择打分矩阵(scoring matrix) The PAM family • Based on global alignments • The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. • Other PAM matrices are extrapolated from PAM1.The BLOSUM family • Based on local alignments. • BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. • All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins.
进行比对的数据库 图形化结果
The Expect value (E) is a parameter that describes the number of hits one can "expect" to see just by chance when searching a database of a particular size.
上机实习1:网上运行blastx和blastn (NCBI blast网址:http://www.ncbi.nlm.nih.gov/BLAST/) >lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC • 对contig34进行网上blastn(演示) • blastx(自行操作)比对
下载 (http://www.ncbi.nlm.nih.gov/blast/download.shtml) 安装 (安装到C:\) 数据库的格式化 (formatdb) 程序运行 (blastall) 本地运行BLAST
双击安装到D盘 • 产生三个文件夹 • bin • data • doc • bin含可执行程序(将数据库及需要比对操作的数据放入该文件); • data文件夹含打分矩阵及演示例子的序列数据信息; • doc文件夹含关于各子程序的说明文档。 将 db,in复制到 Blast/bin文件夹下
数据库的格式化 • formatdb命令用于数据库的格式化: • formatdb [option1][option2][option3]… • formatdb常用参数 • -i database_name 需要格式化的数据库名称 • -p T\F 待格式化数据库的序列类型 • (核苷酸选F;蛋白质选T;默认值为T) • 例:formatdb -i db -p T 对蛋白质数据库“db”进行格式化
程序运行 • blastall命令用于运行五个blast子程序: • blastall [option1][option2][option3] • blastall常用参数 • 四个必需参数 • -p program_name, 程序名,根据数据库及搜索文件序列性质进行选择; • -d database_name,数据库名称, 比对完成格式化的数据库; • -i input_file, 搜索文件名称; • -o output_file, BLAST结果文件名称; • 2个常用参数 • -e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5; • -F filter? 过滤低复杂性序列,默认为T,默认低复杂性序列不参加比对; • 例: blastall -p blastx -d db -F F -i in -o out-e 2e-5
上机实习2:本地运行blastx • 进入DOS命令行提示符状态 (“运行” cmd) • 进入C盘 “cd \” • 进入包含序列数据的bin目录下 “cd Blast\bin” • 察看目录下内容 “dir” • 格式化数据库db “formatdb –i db –p T” • 运行blastx“blastall –p blastx –i in –d db –o out” • 察看结果 more out.txt 输入 数据库类型:F/T Blast程序 序列输入 数据库 结果输出
输入“cd \”-〉回车 回到安装目录 C盘 输入“cd blast\bin”-〉回车 到达blast程序下bin文件夹
输入“dir”-〉回车 察看bin文件夹下内容 bin文件夹下包含以.exe为后缀的程序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”
空格键翻页 • 输入“q”跳出 输入“more db”-〉回车 察看db文件内容
输入“formatdb –i db –p T ” -〉回车 对db数据库进行格式化
输入“dir ” -〉回车 察看bin文件夹下内容 格式化以后产生的文件
输入“blastall –p blastx –i in –d db –o out ” -〉回车 运行blastx程序
用”more out” 察看结果文件
EST数据注释小结: 1 相同物种中有高度相似的序列 2 其它物种有高度相似的序列 其它物种有中度相似的序列 3 其它物种相似度低的序列 4 含有某些结构域或者基序(motif) 5 一、注释评价
二、程序选择 • 序列信息 • BLAST • FASTA(http://www.ebi.ac.uk/fasta/) • 较高敏感度,但速度较慢(可通过ktup值调节) • BLITZ(http://www.ebi.ac.uk/searches/blitz.html) • 更为灵敏,所需时间更长
三、低复杂度区域(LCRs) • 低复杂度区域过滤 • 将该类区域转化为不明确字符(蛋白质用X,核酸用N)
多序列比对的目的 从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。
直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的 不同生物系统的同一血红蛋白分子的氨基酸随着时间的推移而以几乎一定的比例相互量换着(Zuckerkandl&Pauling,1962 ) 旁系同源(paralogs): 同源的基因是由于基因复制产生的. • 蛋白质,基因序列在单位时间以大致恒定的速度进行置换 分子钟
paralogs orthologs
系统发育分析(phylogenetic analysis) • 结构预测(structure prediction) • 序列基序鉴定(sequence motif identification) • 功能预测(function prediction) ClustalW/ClustalX:一种全局的多序列比对程序,可以用来绘制亲缘树,分析进化关系。 Click to add title in here 4 MEGA4 多序列比对的应用
ClustalW的运行 本地运行 命令行操作的ClustalX(linux) 窗口化操作的ClustalX(windows) 下载页面:(http://www.ebi.ac.uk/clustalw) 网上运行 (http://www.ebi.ac.uk/clustalw)
· 下载ClustalX 各种参数设定 目标序列
Jalview 结果下载
上机实习2:本地运行ClastalX 17-RNASE1.fasta • 多序列比对 • (Multiple Alignment) • 构建进化树 • (Bootstrap N-J)
在C:\zcni\shiyan1\clustalx1.83 文件夹下,找到clustalx.exe 双击打开
点击File下拉菜单中 Load sequences选项, 打开序列文件17-RNASE1.fasta.txt