1 / 101

第六章 核酸与蛋白质结构与功能预测分析

第六章 核酸与蛋白质结构与功能预测分析. 蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测. 编码区预测. 翻译. 蛋白质序列. 基因结构分析. 序列比对 功能注释 KEGG GO 系统发育树. Codon bias GC Content 限制性酶切位点. 选择性剪切 转录调控因子. 针对核酸序列的预测方法. 基因组序列 cDNA 序列. 核苷酸序列分析. 基因预测 —— 开放读码框的识别. 开放读码框( open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列

ashanti
Download Presentation

第六章 核酸与蛋白质结构与功能预测分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第六章 核酸与蛋白质结构与功能预测分析

  2. 蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测 编码区预测 翻译 蛋白质序列 基因结构分析 序列比对 功能注释 KEGG GO 系统发育树 Codon bias GC Content 限制性酶切位点 选择性剪切 转录调控因子 针对核酸序列的预测方法 基因组序列cDNA序列

  3. 核苷酸序列分析

  4. 基因预测——开放读码框的识别 • 开放读码框(open reading frame, ORF)是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区

  5. 选择物种 是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列 提交序列文件 提交序列 结果返回到邮箱(可选) 运行GENSCAN ORF识别:GENSCAN http://genes.mit.edu/GENSCAN.html 6

  6. 基因、外显子及类型 预测单元起始、终止及长度 正链、负链 编码区打分值 可信概率、得分值 相位 GENSCAN输出结果:文本

  7. exon1 exon2 exon3 exon4 exon5 GENSCAN输出结果:图形

  8. ORF识别:GenomeScan 提交待分析序列 提交同源蛋白质序列 运行GenomeScan http://genes.mit.edu/genomescan.html

  9. 预测外显子位置、可信度等信息 同源比对信息 预测结果氨基酸序列 GenomeScan输出结果:文本

  10. GenomeScan输出结果:图形

  11. ORF识别 预测结果 运行程序 设置参数 http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi

  12. 上机实习一:开放读码框预测 步骤一:GENSCAN http://genes.mit.edu/GENSCAN.html 提交序列文件:sequence.txt 步骤二:GenomeScan http://genes.mit.edu/genomescan.html 提交序列文件:sequence.txt 用于同源比对蛋白质序列:protein.txt

  13. 基因结构分析 内含子/外显子剪切位点识别 • 对基因组序列的读码框区域进行预测 • 内含子5’端供体位点(donor splice site): GT • 内含子3’端受体位点(acceptor splice site): AG • 预测工具: • GENSCAN,GENEMARK • NetGene2, Splice View

  14. 内含子/外显子剪切位点识别 • 如何分析mRNA/cDNA的外显子组成? • RNASPL • 与相应的基因组序列比对,分析比对片段的分布位置 • 预测工具: • Spidey,SIM4,BLAT,BLAST,FASTA

  15. 选择物种 提交序列 剪切位点识别:NetGene2 http://www.cbs.dtu.dk/services/NetGene2/

  16. 可信度 供体位点 受体位点 NetGene2输出结果

  17. mRNA剪切位点识别:Spidey http://www.ncbi.nih.gov/spidey • NCBI开发的在线预测程序 • 用于mRNA序列同基因组序列比对分析

  18. 输入基因组序列或序列数据库号 输入mRNA.txt文档中的 6条序列 判断用于分析的序列间的差异, 并调整比对参数 不受默认内含子长度限制, 默认长度:内部内含子 为35kb, 末端内含子为100kb 比对阈值 输出格式 选择物种 Spidey序列提交页面 • 序列在线提交形式: • 界面中有两个窗口: • 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号) • 可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析

  19. 第一条蓝色序列为基因组序列,橘黄色为外显子第一条蓝色序列为基因组序列,橘黄色为外显子 外显子对应于 基因组上的 起始/结束位置 外显子对应于 mRNA/cDNA上的 起始/结束位置 外显子 序号 外显子 长度 一致性 百分比 错配和gap 序列联配结果 Spidey输出结果

  20. 选择性剪切(Alternative splicing)分析 • 选择性剪接是调控基因表达的重要机制 • 了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制 • 分析方法: • 查询选择性剪切相关的网站 • 多序列比对

  21. 查询选择性剪切相关的网站 从已知基因的功能推测剪切机制

  22. 基因名、数据库号或关键字查询 序列查询 选择性剪切数据库:ProSplicer http://prosplicer.mbc.nctu.edu.tw/

  23. 外显子 不同剪切体外显子组成不同 ProSplicer查询结果 查询NOX1基因:

  24. cDNA/mRNA/EST 序列比对 收集序列 在序列上高度相似的 mRNA/cDNA/EST序列 相匹配的基因组序列 序列比对 对分布位置进行分析 基于序列比对分析选择性剪切

  25. AF127763,AF166326,AF166327和AF166328 Nox基因 27

  26. 上机实习二 步骤一: Spidey 基因剪切位点识别 http://www.ncbi.nih.gov/spidey mRNA序列文件:mRNA.txt Genomic序列文件:genomic.txt 步骤二: ProSplicer 选择性剪切数据库查询 http://prosplicer.mbc.nctu.edu.tw/ 查询基因:NOX1

  27. 转录调控序列分析---启动子区 • 启动子(Promoter) 位于结构基因5’端上游,能活化RNA聚合酶,使之与模板DNA结合并具有转录起始的特异性。 • 转录起始位点(Transcription start site, TSS) PYCAPY • 核心启动子元件(Core promoter element) TATA box,Pribnow box • 上游启动子元件(Upstream promoter element,UPE) CAAT box,GC box,SP1,Otc • 增强子(Enhancer)

  28. mRNA -35 -10 +1 TTGACA TATAAT A mRNA -110 -40 -25 +1 GC区 CAAT区 TATAAT PyAPy 增强子 原核和真核生物基因转录起始位点上游区结构 原核生物 真核生物 上游启动子元件,UPE 核心启动子元件 转录起始位点

  29. 搜索界面 下载序列 快速搜索 启动子数据库:EPD http://www.epd.isb-sib.ch/

  30. 搜索基因“RHO” 限定物种“human” EPD搜索界面

  31. 搜索结果基因信息 启动子区域序列 其它相关分析链接 搜索结果:“RHO” EPD搜索结果

  32. GenBank序列链接 参考序列 EPD搜索结果:RHO

  33. 启动子结合位点分析:Cister http://zlab.bu.edu/~mfrith/cister.shtml

  34. CpG岛 • CpG岛 • 位于真核生物基因转录起始位点上游,GC含>50% ,长度>200bp

  35. 5’ 3’ mRNA前体 AAUAAA CA GU 5’ 3’ 成熟mRNA AAUAAA CAAAAAAAAAAAAA UUUUUUUUU 5’ 3’ RNA C-G C-G G-C G-C U-A G-C G-C C-G G-C 转录终止信号 • 加polyA信号:AAUAAA • 转录终止信号:GC rich二重对称区、UUUUUU

  36. 转录终止信号

  37. 预测结果 提交序列 转录终止信号预测:HCpolya http://l25.itba.mi.cnr.it/~webgene/wwwHC_polya.html

  38. 上机实习 三 启动子数据库 EPD http://www.epd.isb-sib.ch/ 1.查询基因:RHO 2.下载RHO启动子区域序列

  39. 序列组分分析---GC含量 • GC content • 不同物种GC含量变化很大 • 识别基因水平转移,判断外源基因 • GC skew • (G-C)/(G+C)% • 预测细菌或古细菌复制起点

  40. 限制性酶切位点分析: NEBcutter http://tools.neb.com/NEBcutter2/index.php

  41. 密码子使用偏好性 • 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子 • 密码子使用偏好性与基因产物的时空的表达量、表达产物的结构及功能之间有着密切的关系 • 密码子使用偏好性分析工具: • Codon Usage Database • Codon Usage Analyzer • CodonW

  42. 查询物种名称 密码子分析数据库: Codon Usage Database http://www.kazusa.or.jp/codon/

  43. Codon Usage Database查询结果

  44. http://www.bioinformatics.org/codon/cgi-bin/codon.cgi

  45. 密码子使用偏好性分析:CodonW http://codonw.sourceforge.net/ • CAI(Codon Adaptation Index):密码子适应指数 • Enc(Effective number of codons):有效密码子数 • Fop(Frequency of Optimal codons):最优密码子使用频率 • G+C:基因中GC含量 • GC3s:密码子第三个碱基中出现G或C的频率 • RSCU(Relative Synonymous Codon Usage):密码子使用相对概率

  46. 导入序列 计算密码子使用相关指数 菜单选项 对应分析 运行程序 选择菜单选项,输入菜单前的数字或字母 密码子使用偏好性分析:CodonW

More Related