第五章多序列对位排列

生物信息学 第五章多序列对位排列

多序列对位排列 Multiple Sequence Alignment (MSA) chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN monkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN dog LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN hamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN bovine PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN Bring the greatest number of similar characters into the same column of the alignment

为什么要做MSA？ 用于描述一组序列之间的相似性关系，以便了解一个基因家族的基本特征，寻找motif，保守区域等。用于预测新序列的二级和三级结构，进而推测其生物学功能。 Find out which parts “do the same thing”

A Species tree B C 为什么要做MSA？用于描述同源序列之间的亲缘关系的远近，应用到分子进化分析中。是构建分子进化树的基础。 a Gene tree b c We often assume that gene trees give us species trees

为什么要做MSA？ Contig assembly

怎么做MSA？ • 动态规划算法（dynamic programming）：MSA • 改进算法（heuristic algorithm）： 1. 渐进法（progressive methods）：Clustal, T-Coffee, MUSCLE 2. 迭代法（iterative methods）：PRRP, DIALIGN 3. 其它算法：Partial Order Algorithm、profile HMM、 meta-methods (MAFFT)… http://www.ebi.ac.uk/Tools/msa/ Current Opinion in Structural Biology 2006, 16:368–373

Clustal使用方法 • Clustal：目前应用最广泛的 MSA 方法 • 可在线分析 • 可在本地计算机运行 http://www.clustal.org/ • 序列输入、输出格式 Input Output • >sequence1ATTGCAGTTCGCA …… • >sequence2ATAGCACATCGCA…… • >sequence3ATGCCACTCCGCC…… ALNNBRF/PIRGCG/MSFPHYLIPNEXUSGDE/FASTA FASTA NBRF/PIR EMBL/SWISSPROT ALNGCG/MSFGCG9/RSFGDE

Clustal W/X算法基础 两两比对构建距离矩阵构建指导树（guide tree）将距离最近的两条序列用动态规划的算法进行比对； “渐进”的加上其他的序列

EBI的ClustalW分析网页 http://www.ebi.ac.uk/Tools/msa/clustalw2/ • Clustal在线分析方法（ClustalW）粘贴或上载序列调整参数 Alignments 多序列对位排列结果 Result Summary http://www.ebi.ac.uk/Tools/msa/clustalw/help/

下载安装 • Clustal离线分析方法（ClustalX）自带Help文件 Using ClustalX for multiple sequence alignment by Jarno Tuimala 两种工作模式: • Multiple Alignment • Profile Alignment

3、为便于识别每条序列，可在>后输入物种名称，并用空格和其它描述内容分开，如：3、为便于识别每条序列，可在>后输入物种名称，并用空格和其它描述内容分开，如： >Humangi|301129180|ref|NP_001180303.1| resistin [Homo sapiens] 第一步：输入序列 File Load sequences 1、序列为多重fasta格式（可进行编辑，保存为txt文件） 2、序列文件所在路径不能有空格和中文字符（如放在系统桌面），否则ClustalX无法载入

第二步：设定比对参数

第三步：进行序列比对，得到结果

第四步：评价比对质量 打开比对结果: 1、可在ClustalX中直接输出打印 2、可用写字板打开aln文件 3、可将aln文件以图形展示，更直观更改参数、手动编辑，使之具有生物学意义

可进一步对排列好的序列进行修饰（1） • Boxshade突出相同或相似位点（http://www.ch.embnet.org/software/BOX_form.html）在EBI ClustalW结果网页复制序列比对结果在“Boxshade”网页粘贴序列，在“Input sequence format”栏目选择“ALN”，在“Output format”栏目选择“RTF_new” 在结果网页点击“here is your output number 1” 修饰过的排列结果

可进一步对排列好的序列进行修饰（2） • ESPript多种修饰功能，突出相同或相似位点 http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi 在EBI ClustalW结果网页下载“Alignments”(CLUSTALW format) 在ESPript分析网页“Aligned Sequences”栏上载Alignments文件在“Output layout”和“Output file or device”栏选择修饰后的比对结果

GeneDoc http://www.nrbsc.org/gfx/genedoc • 可进一步对排列好的序列进行修饰（3） File – Import 选择输入文件的格式（如ALN）修饰排列结果

ClustalW ClustalX Clustal工作界面

Clustal部分参数定义 • Gap opening penalty：增大数值使 gap 数目减少 • Gap extension penalty：增大数值使 gap 长度变短 • Weight transition：A－G 转换或 C－T 转换（multiple DNA sequence alignment） • Hydrophilic gap：选择“ on” 将增加形成 gap 的机会（multiple protein sequence alignment） • Residue-specific gap penalties：选择“ on” 将增加在某些氨基酸残基处形成 gap 的机会，而减少在另一些氨基酸残基处形成 gap 的机会（multiple protein sequence alignment）

http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

第五章 多序列对位排列