1 / 19

集成降采样不平衡数据分类方法研究

集成降采样不平衡数据分类方法研究. 邹 权 博士、助理教授 厦门大学 计算机系. 课题背景及意义. 不平衡数据分类 金融欺诈检测 医疗诊断 网络入侵检测 反垃圾邮件 石油勘探 等领域. 研究内容. 相关研究 提出改进算法 在生物信息学上应用. 相关研究. 影响因素( 数据方面 ). 对策. 重构数据集 大样本降采样 小样本过采样 分类降采样 暂无. 数据稀缺 绝对稀缺 相对稀缺 噪声数据 数据复杂性 类内不平衡 类重叠. 现有改进的算法. 基于分类器集成 AdaBoost 算法 Bagging 算法 代价敏感学习

Download Presentation

集成降采样不平衡数据分类方法研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 集成降采样不平衡数据分类方法研究 邹 权 博士、助理教授 厦门大学 计算机系

  2. 课题背景及意义 • 不平衡数据分类 • 金融欺诈检测 • 医疗诊断 • 网络入侵检测 • 反垃圾邮件 • 石油勘探等领域

  3. 研究内容 • 相关研究 • 提出改进算法 • 在生物信息学上应用

  4. 相关研究 影响因素(数据方面) 对策 重构数据集 大样本降采样 小样本过采样 分类降采样 暂无 • 数据稀缺 • 绝对稀缺 • 相对稀缺 • 噪声数据 • 数据复杂性 • 类内不平衡 • 类重叠

  5. 现有改进的算法 • 基于分类器集成 • AdaBoost算法 • Bagging算法 • 代价敏感学习 • 单类学习 • 不同算法思想的集成 • 代价敏感神经网络与分类器集成相结合

  6. 改进的算法 • 基于采样的改进算法 • 基于集成分类器的改进算法

  7. 实验数据

  8. 基于采样的改进算法 • 基于降采样 • 聚类方法 • K-means • MakeDensityBasedClusterer • EM(基于模型) • FarthestFirst(分层聚类) • 采样方法

  9. 基于采样的改进算法 • 基于过采样 • SMOTE算法 • 小样本加权重随机抽样算法

  10. 基于集成分类器的改进算法 • 基于单个基分类器 • 对样本进行处理,基分类器为同一个分类算法 • SCNC(Single Classifier, N Cluster)算法 • SCLL(Single Classifier, Layered Large data)算法 • SCLS(Single Classifier, Layered and Smote)算法 • SCNW(Single Classifier, N Weighted)算法

  11. 基于集成分类器的改进算法 • 基于多个基分类器 训练基分类器的样本相同,基分类器的算法不同 • MCUD(Multi Classifier,Under-sampling Data)算法 • MCOD(Multi Classifier,Over-sampling Data)算法 训练基分类器的样本不同,基分类器的算法不同 • MCNC(Multi Classifier,N Cluster)算法 • MCLL(Multi Classifier,Layered Large data)算法 • MCLS(Multi Classifier,Layered and Smote)算法 • MCNW(Multi Classifier,N Weighted)算法

  12. 实验结果

  13. 总结改进的算法 • 基于集成的改进的算法优于单纯使用数据重构 • 以Bagging为基分类器的基于单个基分类器的集成算法分类性能较佳 • SCNW算法分类性能最佳,适应于不平衡度小于1:10左右的训练集分类 • SCNC算法不受训练集的不平衡度大小的影响,比较适合训练集大小较小的情况 • SDLL算法和SDLS算法适应于训练集不平衡度比较高且训练集大小比较大的情况

  14. 在生物信息学的应用 • SNP位点

  15. 在生物信息学的应用 • microRNA前体

  16. 在生物信息学的应用 • 细胞因子

  17. 总结与展望 • 总结 • 基于采样和基于集成分类器分别提出了改进的算法 • 实验证明了基于集成的改进的算法优于单纯使用数据重构 • 改进的算法在生物信息学的应用 • 展望 • 相关理论研究 • 多类标签的不平衡数据分类问题研究

  18. THANK YOU!

More Related