250 likes | 479 Views
生物信息学. 第五章 多序列对位排列. 多序列对位排列. Multiple Sequence Alignment (MSA). chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
E N D
生物信息学 第五章 多序列对位排列
多序列对位排列 Multiple Sequence Alignment (MSA) chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN monkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN dog LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN hamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN bovine PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN Bring the greatest number of similar characters into the same column of the alignment
为什么要做MSA? 用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结构,进而推测其生物学功能。 Find out which parts “do the same thing”
A Species tree B C 为什么要做MSA? 用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。是构建分子进化树的基础。 a Gene tree b c We often assume that gene trees give us species trees
为什么要做MSA? Contig assembly
怎么做MSA? • 动态规划算法(dynamic programming):MSA • 改进算法(heuristic algorithm): 1. 渐进法(progressive methods):Clustal, T-Coffee, MUSCLE 2. 迭代法(iterative methods):PRRP, DIALIGN 3. 其它算法:Partial Order Algorithm、profile HMM、 meta-methods (MAFFT)… http://www.ebi.ac.uk/Tools/msa/ Current Opinion in Structural Biology 2006, 16:368–373
Clustal使用方法 • Clustal:目前应用最广泛的 MSA 方法 • 可在线分析 • 可在本地计算机运行 http://www.clustal.org/ • 序列输入、输出格式 Input Output • >sequence1ATTGCAGTTCGCA …… • >sequence2ATAGCACATCGCA…… • >sequence3ATGCCACTCCGCC…… ALNNBRF/PIRGCG/MSFPHYLIPNEXUSGDE/FASTA FASTA NBRF/PIR EMBL/SWISSPROT ALNGCG/MSFGCG9/RSFGDE
Clustal W/X算法基础 两两比对构建距离矩阵 构建指导树(guide tree) 将距离最近的两条序列用动态规划的算法进行比对; “渐进”的加上其他的序列
EBI的ClustalW分析网页 http://www.ebi.ac.uk/Tools/msa/clustalw2/ • Clustal在线分析方法(ClustalW) 粘贴或上载序列 调整参数 Alignments 多序列对位排列结果 Result Summary http://www.ebi.ac.uk/Tools/msa/clustalw/help/
下载安装 • Clustal离线分析方法(ClustalX) 自带Help文件 Using ClustalX for multiple sequence alignment by Jarno Tuimala 两种工作模式: • Multiple Alignment • Profile Alignment
3、为便于识别每条序列,可在>后输入物种名称,并用空格和其它描述内容分开,如:3、为便于识别每条序列,可在>后输入物种名称,并用空格和其它描述内容分开,如: >Humangi|301129180|ref|NP_001180303.1| resistin [Homo sapiens] 第一步:输入序列 File Load sequences 1、序列为多重fasta格式(可进行编辑,保存为txt文件) 2、序列文件所在路径不能有空格和中文字符(如放在系统桌面),否则ClustalX无法载入
第四步:评价比对质量 打开比对结果: 1、可在ClustalX中直接输出打印 2、可用写字板打开aln文件 3、可将aln文件以图形展示,更直观 更改参数、手动编辑,使之具有生物学意义
可进一步对排列好的序列进行修饰(1) • Boxshade突出相同或相似位点 (http://www.ch.embnet.org/software/BOX_form.html) 在EBI ClustalW结果网页复制序列比对结果 在“Boxshade”网页粘贴序列,在“Input sequence format”栏目选择“ALN”,在“Output format”栏目选择“RTF_new” 在结果网页点击“here is your output number 1” 修饰过的排列结果
可进一步对排列好的序列进行修饰(2) • ESPript多种修饰 功能,突出相同或相似位点 http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi 在EBI ClustalW结果网页下载“Alignments”(CLUSTALW format) 在ESPript分析网页“Aligned Sequences”栏上载Alignments文件 在“Output layout”和“Output file or device”栏选择 修饰后的比对结果
GeneDoc http://www.nrbsc.org/gfx/genedoc • 可进一步对排列好的序列进行修饰(3) File – Import 选择输入文件的格式(如ALN) 修饰排列结果
ClustalW ClustalX Clustal工作界面
Clustal部分参数定义 • Gap opening penalty:增大数值使 gap 数目减少 • Gap extension penalty:增大数值使 gap 长度变短 • Weight transition:A-G 转换或 C-T 转换(multiple DNA sequence alignment) • Hydrophilic gap:选择“ on” 将增加形成 gap 的机会(multiple protein sequence alignment) • Residue-specific gap penalties:选择“ on” 将增加在某些氨基酸残基处形成 gap 的机会,而减少在另一些氨基酸残基处形成 gap 的机会(multiple protein sequence alignment)