1 / 16

基于 Hadoop 的关键词行业分类技术 研究

基于 Hadoop 的关键词行业分类技术 研究. --- 季朋. 基于 Hadoop 的关键词行业分类技术研究. Catalog 目录. 基于 Hadoop 的关键词行业分类技术研究. Content 研究内容. 1. of. 13. 基于 H adoop 的关键词行业分类技术研究. 基于 Hadoop 的关键词行业分类技术研究. Solution 解决方案. 分类 学习训练集,分类未标注的关键词 海量数据 一千多万条数据,处理的数据达 10G 以上. 并行化的 KNN 算法. Hadoop 平台, MapReduce 处理框架. 2. of. 13.

Download Presentation

基于 Hadoop 的关键词行业分类技术 研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于Hadoop的关键词行业分类技术研究 ---季朋

  2. 基于Hadoop的关键词行业分类技术研究 Catalog目录

  3. 基于Hadoop的关键词行业分类技术研究 Content研究内容 1 of 13 基于Hadoop的关键词行业分类技术研究

  4. 基于Hadoop的关键词行业分类技术研究 Solution解决方案 • 分类 • 学习训练集,分类未标注的关键词 • 海量数据 • 一千多万条数据,处理的数据达10G以上 并行化的KNN算法 Hadoop平台,MapReduce处理框架 2 of 13 基于Hadoop的关键词行业分类技术研究

  5. Hadoop平台 HDFS 3 of 13 基于Hadoop的关键词行业分类技术研究

  6. Hadoop平台 MapReduce 4 of 13 基于Hadoop的关键词行业分类技术研究

  7. Python中文分词组件 准确高效 结巴分词 自定义词典 停用词典 天津/理工大学 搜索引擎模式 中文分词 5 of 13 基于Hadoop的关键词行业分类技术研究

  8. 中文分词 6 of 13 基于Hadoop的关键词行业分类技术研究

  9. 特征权重 加权熵值:H(w) = 归一化:E(w) = 假如有三个分类A,B,C,分别含有10,15,11个单词,词w在A,B,C中出现的次数分别为1,4,3, 则出现的概率(假设等同于频率)就分别为:,,,则w的加权熵值为: H(w) = = + + M= 归一化后得到的值越大,越具有区分度 7 of 13 基于Hadoop的关键词行业分类技术研究

  10. 特征权重 R语言展示如图: 词的大小和颜色代表权重值大小 颜色从红到蓝,权重值逐渐减小 形状从大到小,权重值逐渐较小 8 of 13 基于Hadoop的关键词行业分类技术研究

  11. 相似度距离 扩展杰卡德距离: = = 9 of 13 基于Hadoop的关键词行业分类技术研究

  12. 并行化KNN算法 找出训练集中与待分类文档距离最近的k个文档, 则待分类的文档属于k个文档中占权重最大的那个分类 10 of 13 基于Hadoop的关键词行业分类技术研究

  13. 并行化KNN算法 11 of 13 基于Hadoop的关键词行业分类技术研究

  14. 系统总流程 12 of 13 基于Hadoop的关键词行业分类技术研究

  15. 结果分析 13 of 13 基于Hadoop的关键词行业分类技术研究

  16. 基于hadoop的关键词行业分类技术研究

More Related