1 / 29

MicroRNA 预测 分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授

MicroRNA 预测 分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授. 目录. 1 选题背景及意义. 2 miRNA 特性 及研究预测算法介绍. 本文目录结构. 3 家族分类及其 生物医学应用. 4 不平衡分类策略及在 miRNA 上的应用. 什么 是 microRNA ( miRNA )?. microRNA 前体. 包含. 成熟体 microRNA. AUCGUGCAGAGACUAGACUGAC. ~22nt. 4. 研究意义及现状. 生物研究 miRNA. 生物验证. 主要工作.

dysis
Download Presentation

MicroRNA 预测 分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MicroRNA预测分类及其特性研究胡玲玲指导老师:邹权 副教授王其聪 副教授

  2. 目录 1 选题背景及意义 2miRNA特性及研究预测算法介绍 本文目录结构 3家族分类及其生物医学应用 4不平衡分类策略及在miRNA上的应用

  3. 什么是microRNA(miRNA)? microRNA前体 包含 成熟体microRNA AUCGUGCAGAGACUAGACUGAC ~22nt 4

  4. 研究意义及现状 生物研究miRNA 生物验证

  5. 主要工作 • miRNA预测挖掘方法总结对比 • miRNA家族预测及生物医学应用 • 提出一种不平衡分类算法

  6. miRNA前体分类方法

  7. miRNA提取挖掘方法

  8. 一致的二级结构 family 类似的生物学功能 other Family:let-7 m2 m1 目的:让miRNA正确的找到所属家族 m3

  9. miRBase18.0中家族分布图 top19(20类) top99(100类) all(1314类) 大家族包含 大部分的miRNA 未知序列更有可能 属于大家族

  10. 分层的随机森林预测模型

  11. 图1 执行流程 first layer 使用20类模型预测序列(图1) 结果类标<=19 否则 second layer 使用100类模型预测序列(图1) 否则 结果类标<=99 全类标预测(图1) third layer 从PubMed查询预测结果家族相关的疾病信息

  12. 实验设计 miRClassify 输入 [sequence] 输出 [family] 20类文件 训练集大小的影响 [50%,66%,80%,90%] <RF> 10-fold-CV 评价标准 100类文件 不同n-gram的影响 • [3-gram,4-gram,5-gram,6gram] <RF> 1314类文件 每层的预测准确度 • [1st layer,2nd layer,3rd layer] <RF> 不同分类算法的影响 • [RT,RF, Decision Tree,SVM,NN,Boost+RF,Boost+SVM]

  13. 结果

  14. 网站

  15. 不平衡分类现状和意义 • 金融欺诈检测 • 医疗诊断 • 网络入侵检测 • 反垃圾邮件 • 生物信息学等领域

  16. 改进算法 过拟合 • 基于采样 • 过抽样 • 欠抽样 • 基于集成分类器 • 基于单个基分类器 Bagging算法 • 基于多个基分类器 Vote算法 易丢失重要信息

  17. 单一基分类器与集成分类器 2 1 2 1 2

  18. 不平衡分类算法imDC 不平衡数据集 分类 样本 小类样本集 大类样本集 大类样本集(权重) 按权重抽样 按权重抽样 数据集Dn …… 数据集D1 错分样本 错分样本 N- / N+决定基分类器个数n 基分类算法:n%5 C[5] …… 基分类器n 基分类器1 加权投票 加权投票 集成分类器

  19. 实验设计 表1 uci数据 表2miRNA数据

  20. UCI数据实验对比

  21. miRNA实验对比

  22. 总结 主要创新点 • 提出了一种分层级联的家族分类预测的方法 • 引入了一种不平衡分类策略:ImDC • 对比分析主流的miRNA挖掘预测方法 展望 • 相关理论研究 • 不平衡分类时间性能,参数调优

  23. 研究成果 Quan Zou*, Yaozong Mao,Lingling Hu, Yunfeng Wu, ZhiliangJi*. miRClassify: An advanced web server for miRNA family classification and annotation. Computers in Biology and Medicine. 2014, 45:157-160. (SCI 3区, IF2011=1.089) Chunyu Wang, Lingling Hu, MaozuGuo, QuanZou. An ensemble learning method for identifying imbalanced miRNA data. Genetics and Molecular Research. Accepted (SCI, IF2010=1.013) Lingling Hu, Yong Huang, QicongWang,QuanZou, Yi Jiang. Benchmark comparison of ab initio microRNA identification methods and software. Genetics and Molecular Research. 2012, 11(4):4525-4538. (SCI, IF2010=1.013)

  24. 谢 谢欢迎各位老师同学批评指正

More Related