690 likes | 913 Views
生物信息学 (Bioinformatics). 第七讲 蛋白质结构与预测. DNA sequence. Protein sequence. Protein structure. Protein function. 蛋白质结构分析主要内容. 一 . 蛋白质基本理化性质分析. 蛋白质理化性质是蛋白质研究的基础 蛋白质的基本性质: 相对分子质量 氨基酸组成 等电点( PI ) 消光系数 半衰期 不稳定系数 总平均亲水性 …… 实验方法: 相对分子质量的测定、等电点实验、沉降实验
E N D
生物信息学 (Bioinformatics) 第七讲 蛋白质结构与预测
DNA sequence Protein sequence Protein structure Protein function
一.蛋白质基本理化性质分析 • 蛋白质理化性质是蛋白质研究的基础 • 蛋白质的基本性质: • 相对分子质量 氨基酸组成 • 等电点(PI) 消光系数 • 半衰期 不稳定系数 • 总平均亲水性 …… • 实验方法: • 相对分子质量的测定、等电点实验、沉降实验 • 缺点:费时、耗资 • 基于实验经验值的计算机分析方法
AACompIdent PeptideMass
1.2 Protparam http://www.expasy.org/tools/protparam.html • 计算以下物理化学性质: • 相对分子质量 理论 pI 值 • 氨基酸组成 原子组成 • 消光系数 半衰期 • 不稳定系数 脂肪系数 • 总平均亲水性
输入Swiss-Prot/TrEMBL AC号 打开protein.txt, 将蛋白质序列 粘贴在搜索框中 1.2.1 主要选项/参数 • 序列在线提交形式: • 如果分析SWISS-PORT和TrEMBL数据库中序列 • 直接填写Swiss-Prot/TrEMBL AC号(accession number) • 如果分析新序列: • 直接在搜索框中粘贴氨基酸序列
功能域 用户自定义区段 1.2.2 输出结果 • 输入Swiss-Prot/TrEMBL AC号—-分不同的功能域肽段
氨基酸数目 相对分子质量 • 理论 pI 值 氨基酸组成 正/负电荷残基数 点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果
消光系数 原子组成 分子式 总原子数 半衰期 12
不稳定系数 脂肪系数 总平均亲水性 不稳定系数 <40 stable >40 unstable
2.蛋白质亲疏水性/跨膜区分析 (a)-Type I membrane protein (b)-Type II membrane protein (c)-Multipass transmembrane proteins (d)-Lipid chain-anchored membrane proteins (e)-GPI-anchored membrane proteins
2.1 蛋白质亲疏水性分析 • 疏水作用是蛋白质折叠的主要驱动力 • 分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步 • 氨基酸疏水分析为蛋白质二级结构预测提供佐证 • 可用于分析蛋白质相互作用位点-抗原位点预测(预测准确率达56%) • 是分析蛋白质跨膜区重要一步
蛋白质亲疏水性分析 • ProtScale • http://ca.expasy.org/tools/protscale.html
输入Swiss-Prot/TrEMBL AC号 打开protein.txt, 将一条蛋白质序列 粘贴在搜索框中 • 主要选项/参数 • 序列在线提交形式: • 如果分析SWISS-PORT和TrEMBL数据库中序列 • 直接填写Swiss-Prot/TrEMBL AC号(accession number) • 如果分析新序列:直接在搜索框中粘贴氨基酸序列
是否归一化 计算窗口(7-11) 相对权重值 权重值变化趋势 氨基酸标度 • 氨基酸标度 • ---表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等 • --收集56多个文献中提供的氨基酸标度 • --默认值以Hphob. Kyte & Doolittle做疏水性分析 • --特异性氨基酸标度,如Hopp & Woods(1981)针对抗原片段定位;Accessible residues(1979)针对氨基酸溶剂可及性定位;Chou & Fasman (1978)针对氨基酸二级结构疏水性分析
功能域 用户自定义区段 • 输出结果 • 输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段
所用氨基酸标度信息 分析所用参数信息 输出结果
文本结果 序列 参数 图形结果 每个位置 的得分
2.2 蛋白质跨膜区分析 • α螺旋跨膜区主要是由20-30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成 • 亲水残基往往出现在疏水残基之间,对功能有重要的作用 • 基于亲/疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量
TMpred工具:http://www.ch.embnet.org/software/TMPRED_form.htmlTMpred工具:http://www.ch.embnet.org/software/TMPRED_form.html • 预测跨膜区和跨膜方向 • 依靠跨膜蛋白数据库Tmbase
最短和最长的跨膜螺旋疏水区长度 输出格式 输入序列名(可选) 选择序列的格式 贴入protein.txt蛋白质序列 主要参数/选项 • 序列在线提交形式: • 直接贴入蛋白序列 • 填写SwissProt/TrEMBL/EMBL/EST的ID或AC
位置 分值 片段中点位置 可能的跨膜螺旋区 相关性列表 • 包含四个部分 • 可能的跨膜螺旋区 • 相关性列表 输出结果
建议的跨膜拓扑模型 每一位置计算分值 最优拓 扑结构 • 跨膜拓扑模型及图示
输入氨基酸单字母 运行 • SOSUI工具: • - http://bp.nuap.nagoya-u.ac.jp/sosui/ • 以图形方式返回结果,需要Java Applet程序
平均疏水值 预测的跨模螺旋区域 两种跨膜Helix
二、蛋白质二级结构预测 • 基本的二级结构 • α螺旋,β折叠, β转角,无规则卷曲(coils)以及模序(motif)等蛋白质局部结构组件 • 分析方法: • 基于统计和机器学习方法进行预测 • Chou-Fasman算法 • GOR算法 • 多序列列线预测 • 基于神经网络的序列预测 • 基于已有知识的预测方法 • (knowledge based method) • 混合方法(hybrid system method)
2.1.1 PredictProtein • http://www.predictprotein.org/ • 可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息 • 该方法的平均准确率超过72%,最佳残基预测准确率达90%以上。因此,被视为蛋白质二级结构预测的标准 • 需要注册帐号用于学术研究
PredictProtein提交界面详解 提交邮件 地址(必填) 蛋白名称(可选) 分析方法
跨膜螺旋预测(PHDhtm)专家选项 Ambivalent序列识别(ASP)专家选项 CHOP结构域分析工具专家选项
比对内容 从SWISS-PROT数据库返回BLAST搜索结果 MaxHom参数选项 最低序列比对一致性 空位间隔罚分 空位延伸罚分 比对矩阵 最大击中值
选择保存分析结果 是否返回多序列比对结果 HTML结果形式 AGAPE结果 PROF/PHD结果形式 以下拉框中所指定的输入格式将待测序列粘贴此提交栏
PredictProtein分析结果 服务器运行程序信息 服务器运行程序信息 ProSite模体搜索结果 ProSite模体搜索结果 低复杂区域过滤程序 低复杂区域过滤程序 ProDom结构域搜索结果 ProDom结构域搜索结果 二硫键识别结果 二硫键识别结果 PHD程序信息 PHD程序信息 PHD预测结果 PHD预测结果 PROF预测结果 PROF预测结果 球状蛋白预测结果 球状蛋白预测结果 Ambivalent 序列识别结果 Ambivalent 序列识别结果
PredictProtein分析结果 跨膜区 跨膜区 非跨膜区 非跨膜区 Loop Helix Sheet
2.2 结构域分析 • 结构域是蛋白序列的功能、结构和进化单元 • 分析方法 • 序列比对 • 基于蛋白质家族的位置特异性矩阵或概形矩阵
α折叠 基本类型 : β折叠 α/β折叠 α+β折叠
模体、结构域数据库 43
3.1 同源建模法分析步骤: • 多序列比对 • 与已有晶体结构的蛋白质序列比对 • 确定是否有可以使用的模板 • 序列相似度>30% • 序列相似度<30%,结合功能,蛋白质一级序列、二级结构或结构域信息 • 构建三维模型 • 三维模型准确性检验 • Whatcheck 程序 • Ramachandran plot计算检验 • 手工调整多序列比对,重新拟和,构建新的模型