1 / 25

第五章 多序列对位排列

生物信息学. 第五章 多序列对位排列. 多序列对位排列. Multiple Sequence Alignment (MSA). chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

arwen
Download Presentation

第五章 多序列对位排列

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 生物信息学 第五章 多序列对位排列

  2. 多序列对位排列 Multiple Sequence Alignment (MSA) chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN monkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN dog LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN hamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN bovine PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN Bring the greatest number of similar characters into the same column of the alignment

  3. 为什么要做MSA? 用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结构,进而推测其生物学功能。 Find out which parts “do the same thing”

  4. A Species tree B C 为什么要做MSA? 用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。是构建分子进化树的基础。 a Gene tree b c We often assume that gene trees give us species trees

  5. 为什么要做MSA? Contig assembly

  6. 怎么做MSA? • 动态规划算法(dynamic programming):MSA • 改进算法(heuristic algorithm): 1. 渐进法(progressive methods):Clustal, T-Coffee, MUSCLE 2. 迭代法(iterative methods):PRRP, DIALIGN 3. 其它算法:Partial Order Algorithm、profile HMM、 meta-methods (MAFFT)… http://www.ebi.ac.uk/Tools/msa/ Current Opinion in Structural Biology 2006, 16:368–373

  7. Clustal使用方法 • Clustal:目前应用最广泛的 MSA 方法 • 可在线分析 • 可在本地计算机运行 http://www.clustal.org/ • 序列输入、输出格式 Input Output • >sequence1ATTGCAGTTCGCA …… • >sequence2ATAGCACATCGCA…… • >sequence3ATGCCACTCCGCC…… ALNNBRF/PIRGCG/MSFPHYLIPNEXUSGDE/FASTA FASTA NBRF/PIR EMBL/SWISSPROT ALNGCG/MSFGCG9/RSFGDE

  8. Clustal W/X算法基础 两两比对构建距离矩阵 构建指导树(guide tree) 将距离最近的两条序列用动态规划的算法进行比对; “渐进”的加上其他的序列

  9. EBI的ClustalW分析网页 http://www.ebi.ac.uk/Tools/msa/clustalw2/ • Clustal在线分析方法(ClustalW) 粘贴或上载序列 调整参数 Alignments 多序列对位排列结果 Result Summary http://www.ebi.ac.uk/Tools/msa/clustalw/help/

  10. 下载安装 • Clustal离线分析方法(ClustalX) 自带Help文件 Using ClustalX for multiple sequence alignment by Jarno Tuimala 两种工作模式: • Multiple Alignment • Profile Alignment

  11. 3、为便于识别每条序列,可在>后输入物种名称,并用空格和其它描述内容分开,如:3、为便于识别每条序列,可在>后输入物种名称,并用空格和其它描述内容分开,如: >Humangi|301129180|ref|NP_001180303.1| resistin [Homo sapiens] 第一步:输入序列 File Load sequences 1、序列为多重fasta格式(可进行编辑,保存为txt文件) 2、序列文件所在路径不能有空格和中文字符(如放在系统桌面),否则ClustalX无法载入

  12. 第二步:设定比对参数

  13. 第三步:进行序列比对,得到结果

  14. 第四步:评价比对质量 打开比对结果: 1、可在ClustalX中直接输出打印 2、可用写字板打开aln文件 3、可将aln文件以图形展示,更直观 更改参数、手动编辑,使之具有生物学意义

  15. 可进一步对排列好的序列进行修饰(1) • Boxshade突出相同或相似位点 (http://www.ch.embnet.org/software/BOX_form.html) 在EBI ClustalW结果网页复制序列比对结果 在“Boxshade”网页粘贴序列,在“Input sequence format”栏目选择“ALN”,在“Output format”栏目选择“RTF_new” 在结果网页点击“here is your output number 1” 修饰过的排列结果

  16. 可进一步对排列好的序列进行修饰(2) • ESPript多种修饰 功能,突出相同或相似位点 http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi 在EBI ClustalW结果网页下载“Alignments”(CLUSTALW format) 在ESPript分析网页“Aligned Sequences”栏上载Alignments文件 在“Output layout”和“Output file or device”栏选择 修饰后的比对结果

  17. GeneDoc http://www.nrbsc.org/gfx/genedoc • 可进一步对排列好的序列进行修饰(3) File – Import 选择输入文件的格式(如ALN) 修饰排列结果

  18. ClustalW ClustalX Clustal工作界面

  19. Clustal部分参数定义 • Gap opening penalty:增大数值使 gap 数目减少 • Gap extension penalty:增大数值使 gap 长度变短 • Weight transition:A-G 转换或 C-T 转换(multiple DNA sequence alignment) • Hydrophilic gap:选择“ on” 将增加形成 gap 的机会(multiple protein sequence alignment) • Residue-specific gap penalties:选择“ on” 将增加在某些氨基酸残基处形成 gap 的机会,而减少在另一些氨基酸残基处形成 gap 的机会(multiple protein sequence alignment)

  20. http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

More Related