230 likes | 431 Views
Negative training samples are also important for mining microRNAs from genome-scale data. BY Leyi Wei. 背景介绍. microRNA 和 microRNA precursor ( 1 ) microRNA 是一类长度大约为 22nt 的非编码 RNA ,与参与调控细胞过程,近期研究发现与疾病也有很大关联,发掘 microRNA 意义重大。
E N D
Negative training samples are also important for mining microRNAs from genome-scale data BY Leyi Wei
背景介绍 • microRNA 和 microRNA precursor (1)microRNA是一类长度大约为22nt的非编码RNA,与参与调控细胞过程,近期研究发现与疾病也有很大关联,发掘microRNA意义重大。 (2)microRNA precursor(pre-miRNA) 俗称为前体microRNA。 简单来说microRNA与pre-miRNA的关系就是: pre-miRNA包含着microRNA。 当然不仅仅是简单的包含,这只是个前提。Pre-miRNA的序列是能形成典型的发卡环(hairpin)结构。
预测microRNA的方法 • Comparative methods 基于同源信息 ,序列保守性信息等等,只 能预测保守的microRNA • Non -- comparative methods 其中很多方法都是基于机器学习算法, 能够预测非保守的microRNA
影响机器学习的因素 1. 分类器 和 特征 在目前的大多数方法都集中于对分类器很特征的开发 而性能提高的却不是很多。 • 训练集 很少的方法会去研究训练集的选取,特别是反例的选取。 在机器学习方法中训练集一般是由:正例(real pre-miRNA)和反例 (pseudo pre-miRNA)所组成。
正例 是由实验验证过的real pre-miRNA 组成的 反例 则是由pseudo pre-miRNA组成的,这是一类和正例具有非常相似特征的序列,也具有典型的发卡环。由于与real pre-miRNA的极其相似,所以被应用于作为反例集。
训练集如何影响分类器性能呢? 正反例的相似性高往往能得到高的性能 现有的少量方法也有致力于反例的提取,我们发现多数的方法都是用简单的过滤在CDS上选取与正例相似的,但是用这些反例组成的训练集真的能得到高的分类器性能吗?
实验总结 • 在对正例进行预测时,现有的方法都表现出差不多的性能,与我们的方法相当。 • 而在预测反例时,现有方法性能表现不一,都比较差。导致了分类器的性能较差。这说明现有方法在预测反例集是不够有效的
基于我们负集训练的效果 • Triplet-SVM classifier
基于我们负集训练的效果 • Mirident-classifier (Table)
Our ensemble classifier based on this negative set • Our ensemble classifier performance 实验设计: 由于用的是联合分类器,我们与其单一分类器做了比较,看是否有提高性能。 • Feature set performance 实验设计: 由于我们主体的特征集都是用别人的,加上自己提出的三个特征,看是否这三个特征会提高分类器性能
mirnaDetect • 基于我们的之前的分类器系统,还结合使用了搜索算法,我们开发出了能在基因组中挖掘pre-miRNA的程序
mirnaDetect • 算法流程:
投稿经验 • 作为一个菜鸟,一篇文章都还没有发成功,但是很愿意很大家投稿时的感受哈~ 主要针对投国外期刊(SCI): (1)投哪? 怎么投? 一开始, 听老师的。一般作为菜鸟肯定不知道哪些期刊好, 哪些坏,听老师的,过来人有经验。一般的原则就是从高往低的投。幸运的话,高水平的期刊往往能返回一些你的文章的命门,建议先投会议(会议往往拒了你,也会给你点意见的)。 当然到了你自己对这领域有所了解,就可以自主选择期刊了。
(2)文章格式。 选择完 期刊了,注意有些期刊还会要求你文章的格式问题,如果是会议的话都会有模板,一般他们的网站上都有。 (3)有些会要求要写cover letter . 需要的话找我要模板。
(4) 终于投出去了。 一般国外期刊的审稿周期很长,比较快的应该至少也要一个月才有消息吧。网站上的状态会持续的保持在“under review”。 直到有消息前,干点别的吧~ 有消息的话,他们会邮件通知responding author
(5)终于有消息了! Rejected OR (major)Revision (6)Revision 说明你还有希望。 你要重视。Editor或者 Riviewers 会给你一堆的意见。要做到逐条修改,认真对待。编辑会要你再提交修改版的manuscript时候,把你对意见的回复也提交上去,一般这叫做The Rebuttal Letter 但是要怎么写呢? 请看下面一个例子:
提交Revised manuscript: 会要求你把修订过程一并提交,一般叫做Track Changes File。 可是你在修改后,往往就是你接受所有修订的文章,没有修订痕迹怎么办?