400 likes | 580 Views
计算机科学与生命科学( 10 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪 讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/. 序列两两比较. 打点法:. 序列两两比较. 打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet. 序列两两比较. 打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet.
E N D
计算机科学与生命科学(10) 生物信息学基础 2013年秋季学期通选课程 上课时间:周一 18:30点 上课地点:软件园4区502d 主讲人:魏天迪 讲义网址:http://www.mbtech.sdu.edu.cn/biocomp/
序列两两比较 打点法:
序列两两比较 打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet
序列两两比较 打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet The Sequence Input Dialog seq1 dotlet.fasta
序列两两比较 打点法: Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet
序列比对 比较两个长度不同的序列的方法:打点法、序列比对法 序列比对(Alignment),也叫对位排列、联配、对齐等。 运用特定的算法找出两个或多个序列之间产生最大相似性得分的空格插入和序列排列方案。 序列s和t的比对:把s和t这两个字符串上下排列起来,在某些位置插入空格,然后依次比较他们在每一个位置上字符的匹配情况,从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。 序列s:LQRHKRTHTGEKPYE-CNQCGKAFAQ- 序列t:LQRHKRTHTGEKPYMNVINMVKPLHNS 多序列比对双序列比对 全局比对 局部比对
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,0) + w(1,1) = 0 + 10 = 10 s(1,1) = max s(0,1) + gap = -5 + -5 = -10 s(1,0) + gap = -5 + -5 = -10 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,1) + w(1,2) = -5 + -3 = -8 s(1,2) = max s(0,2) + gap = -10 + -5 = -15 s(1,1) + gap = 10 + -5 = 5 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 s(0,0) = 0 s(0,j) = gap * j, 1<=j<=m s(i,0) = gap * i, 1<=i<=n s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:AATC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 2 3 序列 q 4 得分矩阵
双序列比对 --- 全局比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 0 1 2 3 4 5 序列 p 对于: 序列p:ACGTC 序列q:AATC : 字符对字符 : 字符对空位,箭头指着的序列为空位 : 字符对空位,箭头指着的序列为空位 0 1 2 3 序列 q 4 得分矩阵 序列p: A C G T C 序列q: A - A T C 全局序列比对结果
双序列比对 --- 局部比对 全局比对(global alignment):用于比较两个长度近似的序列 局部比对(local alignment):用于比较一长一短两条序列 全局比对 全局比对 局部比对 序列a:ASTDTPYMNVIPPCDEEFV 序列b:ATPY-ELFFV 序列a:PYMNVI 序列c:-----PYINVF-------- 序列c:--PYINVF-- 序列c:PYINVF 比对得分:-46 比对得分:8 比对得分:24 对于: 序列p:ACGTC 序列q:TC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 s(0,0) = 0 s(0,j) = 0, 1<=j<=m s(i,0) = 0, 1<=i<=n 0 s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap
双序列比对 --- 局部比对 全局比对(global alignment):用于比较两个长度近似的序列 局部比对(local alignment):用于比较一长一短两条序列 1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。 s(0,0) = 0 s(0,j) = 0, 1<=j<=m s(i,0) = 0, 1<=i<=n 0 s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:TC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 序列 q 2 得分矩阵
双序列比对 --- 局部比对 全局比对(global alignment):用于比较两个长度近似的序列 局部比对(local alignment):用于比较一长一短两条序列 1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。 s(0,0) = 0 s(0,j) = 0, 1<=j<=m s(i,0) = 0, 1<=i<=n 0 s(i-1,j-1) + w(i,j) s(i,j) = max s(i-1,j) + gap s(i,j-1) + gap 对于: 序列p:ACGTC 序列q:TC m=length(p) n=length(q) gap = -5 s(i,j)是按照替换记分矩阵得到的前缀q[1…i]与p[1…j]最大相似性的得分。 w(i,j)是字符q[i]和p[j]按照替换记分矩阵计算的得分 0 1 2 3 4 5 序列 p 替换记分矩阵 0 1 序列 q 2 得分矩阵
双序列比对 --- 局部比对 全局比对(global alignment):用于比较两个长度近似的序列 局部比对(local alignment):用于比较一长一短两条序列 1981年 Temple Smith 和 Michael Waterman 对局部比对进行了研究,产生了Smith-Waterman算法。 0 1 2 3 4 5 序列 p 0 1 序列 q 2 对于: 序列p:ACGTC 序列q:TC : 字符对字符 : 字符对空位,箭头指着的序列为空位 : 字符对空位,箭头指着的序列为空位 得分矩阵 序列p: T C 序列q: T C 局部序列比对结果:17 序列p: A C G T C 序列q: - - - T C 全局序列比对结果:2
双序列比对 如果两个序列长度相同: 一致度(identity)= (一致的字符的个数 / 序列长度)×100% 相似度(similarity)= (一致的及相似的字符的个数 / 序列长度)×100% 序列1:CVHKA identity = (3/5)*100% = 60% 序列2:CIHKT similarity = ((3+1)/5)*100% = 80% 如果两个序列长度不相同: 一致度(identity)= (一致的字符的个数 / 全局比对长度)×100% 相似度(similarity)= (一致的及相似的字符的个数 / 全局比对长度)×100% 序列1:CVHKAT identity = (4/6)*100% = 67% 序列2:CIHK-T similarity = ((4+1)/6)*100% = 83%
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ 小的 Gap Open + 大的 Gap Extend
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ 小的 Gap Open + 大的 Gap Extend = 分散的空位
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ 大的 Gap Open + 小的 Gap Extend = 集中的空位
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ 调整 gap open和gap extend以达到期望的比对结果 Gap Open Gap Extend
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water/
在线比对工具 • EMBL Alignment Tool: http://www.ebi.ac.uk/Tools/psa/emboss_water/ >Seq1 SEQUENCEMHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKSISENIVSFIEKSYKSIFVLSPNFVQNEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN >Seq2 GTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRAAAAAAAAAAA
在线比对工具 全局与局部比对的比较: 全局比对 比对长度: 186 一致度: 103/186 (55.4%) 相似度: 103/186 (55.4%) 局部比对 比对长度: 130 一致度: 103/130 (79.2%) 相似度: 103/130 (79.2%)
在线比对工具 免费的在线双序列比对工具
多序列比对 多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。
多序列比对 • 多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。 • 多序列比对的主要用途: • 确认:一个位置的序列是否属于某个家族。 • 建立:系统发生树,查看物种间或者序列间的关系 • 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段 • 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列片段是否也具有该功能。 • 预测蛋白质/RNA二级结构 • 等等。
多序列比对 • 多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。 • 对要进行多序列比对的序列的几点要求: • 太多的序列受不了。一般10-15条序列,最好别超过50条。 • 关系太远的序列受不了。两两之间序列相似度低于30%的一组序列,作多序列比对会有麻烦。 • 关系太近的序列受不了。两两之间序列相似度大于90%的序列,有再多条都等于只有一条。 • 局部的短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。 • 有重复域的序列受不了。如果序列里包含重复域,大多数多序列比对的程序都会出错,甚至崩溃。
多序列比对 • 多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。 • 序列的名字有几点建议: • 名字里不要有“空格”,用“_”代替“空格”。 • 不要用特殊字符,(比如中文, @, #, &, ^ 等)。 • 名字的长度不要超过15个字符。 • 一组序列里,不要有重名的序列。 • 如果不按上述几点建议命名的话,多序列比对程序会在不告知你的情况下修改你的序列名称。 e.g. My Seq 1 My_Seq_1 e.g. 我的序列壹Seq1@li.com e.g. This_is_my_favorite_sequence_about_mouse
多序列比对 多序列比对的算法 目前说有的多序列比对工具都不是完美的,他们都使用一种近似的算法。 seq3 seq1 seq1 seq2 seq2 n sequences = nD 2 sequences = 2D 3 sequences = 3D