1 / 22

基于数据库检索的串联质谱鉴定技术

基于数据库检索的串联质谱鉴定技术. 付岩 中国科学院计算技术研究所 yfu@ict.ac.cn http://www.jdl.ac.cn/user/yfu/index.htm. 提纲. 肽鉴定问题 已有肽打分算法 我们的工作 未来计划. 搜索数据库. De novo. Excise spot. Wash, in-gel digest with trypsin. 2-D gel. 蛋白质鉴定结果 : KFDFDSFTFJYMKOJDFGFDDTG IPDGFAG FFGHY AQGGITFR HEW…. 搜索数据库. 肽鉴定结果 : IPDGFAG

Download Presentation

基于数据库检索的串联质谱鉴定技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于数据库检索的串联质谱鉴定技术 付岩 中国科学院计算技术研究所 yfu@ict.ac.cn http://www.jdl.ac.cn/user/yfu/index.htm

  2. 提纲 • 肽鉴定问题 • 已有肽打分算法 • 我们的工作 • 未来计划

  3. 搜索数据库 De novo Excise spot Wash, in-gel digest with trypsin 2-D gel 蛋白质鉴定结果: KFDFDSFTFJYMKOJDFGFDDTGIPDGFAGFFGHYAQGGITFRHEW… 搜索数据库 肽鉴定结果: IPDGFAG AQGGITFR …

  4. 肽鉴定问题 • 输入: • 给定实验串联质谱S • 肽序列数据库D = {pep1, pep2, …, pepn}; • 实验条件C • 输出: • 在条件C下,D中最可能生成质谱S的肽序列pep* • 肽鉴定算法的性能取决于我们预测质谱的能力

  5. 碎裂模式、碎片离子的类型和强度 • 我们仅仅知道一些简单的规则

  6. 离子质荷比的检测误差、噪音

  7. 已有肽打分方法 • 基于谱点积 (SDP) • 早期软件: Shared Peak Count • SEQUEST: XCORR • Sonar MS/MS: SDP • 基于概率 • Mascot • SCOPE • ProbID

  8. 谱点积 (SDP) • 实验质谱向量 • c = [c1, c2,…, cN] • 理论质谱向量 • t = [t1, t2,…, tN]

  9. 谱点积 (SDP)评述 • 准确性取决于对理论质谱的预测准确度,现有软件和算法对理论谱的预测准确性有限; • 忽略了碎片离子之间的相关性,所有离子匹配被同等对待,错误的随机匹配导致假阳性鉴定结果。

  10. 概率肽打分 • 基于各种假设在不同层次上建立概率模型 Max p( peptide | spectrum ) =Max p( spectrum | peptide )p( peptide ) • 评述 • 基本条件概率依赖于先验假定, 或者缺乏有效的学习手段; • 为了使概率公式可计算,不得不做严格假设. 比如离子独立性;

  11. 我们的工作 • 利用离子相关性降低随机错误匹配,例如连续离子的情况 • 技巧:核函数(对连续离子加权)

  12. 离子阵列和相关窗口

  13. 质谱向量的矩阵形式 T= , C= 理论谱 实验谱

  14. 核技巧 Ref: Scholkopf et al (1998) Prior knowledge in support vector kernels. Locally improved polynomial kernel

  15. 核谱点积 • cj是以 cpq为元素的向量, tj是以 tpq为元素的向量, tpq和tpq是矩阵C和T中第j个相关窗口中的元素 • k(cj,tj) 是核函数, • 点积核x, y (KSDPSDP) • 多项式核x, yd • RBF核exp(||xy ||2) • KSDP把质谱向量映射到一个高维空间,这个空间的维对应于相关离子的组合;

  16. 软件: pFind • http://pfind.jdl.ac.cn

  17. 实验 • 数据 • 离子阱串联质谱来自18个纯蛋白 • Dataset A: 1323个串联质谱 • Dataset B: 731个串联质谱 • Reference Keller et al. (2002) Experimental protein mixture for validating tandem mass spectral analysis. Omics, 6, 207–212.

  18. KSDP vs. SDP 横坐标:鉴定错误率; 纵坐标:参数 dataset B 多项式核 RBF 核 (cik和, tik, ci和ti取0/1值)

  19. pFind vs. 其他软件 假阳性结果数量比较

  20. 更多细节 Yan Fu, Qiang Yang, Ruixiang Sun, Dequan Li, Rong Zeng, Charles X. Ling, Wen Gao. Exploiting the kernel trick to correlate fragment ions for peptide identification via tandem mass spectrometry. Bioinformatics, 20: 1948-1954, 2004.

  21. 未来计划 • 理论质谱预测 • 肽碎裂模式发现 • 误差模型 • 鉴定结果显著性评价 • 哪些鉴定结果是真正正确的? • 与KDD Cup工作相通 • 把鉴定结果用向量描述 • 采用数据挖掘算法进行分类

  22. 谢谢,请批评指教

More Related