160 likes | 339 Views
基于 Hadoop 的关键词行业分类技术 研究. --- 季朋. 基于 Hadoop 的关键词行业分类技术研究. Catalog 目录. 基于 Hadoop 的关键词行业分类技术研究. Content 研究内容. 1. of. 13. 基于 H adoop 的关键词行业分类技术研究. 基于 Hadoop 的关键词行业分类技术研究. Solution 解决方案. 分类 学习训练集,分类未标注的关键词 海量数据 一千多万条数据,处理的数据达 10G 以上. 并行化的 KNN 算法. Hadoop 平台, MapReduce 处理框架. 2. of. 13.
E N D
基于Hadoop的关键词行业分类技术研究 ---季朋
基于Hadoop的关键词行业分类技术研究 Catalog目录
基于Hadoop的关键词行业分类技术研究 Content研究内容 1 of 13 基于Hadoop的关键词行业分类技术研究
基于Hadoop的关键词行业分类技术研究 Solution解决方案 • 分类 • 学习训练集,分类未标注的关键词 • 海量数据 • 一千多万条数据,处理的数据达10G以上 并行化的KNN算法 Hadoop平台,MapReduce处理框架 2 of 13 基于Hadoop的关键词行业分类技术研究
Hadoop平台 HDFS 3 of 13 基于Hadoop的关键词行业分类技术研究
Hadoop平台 MapReduce 4 of 13 基于Hadoop的关键词行业分类技术研究
Python中文分词组件 准确高效 结巴分词 自定义词典 停用词典 天津/理工大学 搜索引擎模式 中文分词 5 of 13 基于Hadoop的关键词行业分类技术研究
中文分词 6 of 13 基于Hadoop的关键词行业分类技术研究
特征权重 加权熵值:H(w) = 归一化:E(w) = 假如有三个分类A,B,C,分别含有10,15,11个单词,词w在A,B,C中出现的次数分别为1,4,3, 则出现的概率(假设等同于频率)就分别为:,,,则w的加权熵值为: H(w) = = + + M= 归一化后得到的值越大,越具有区分度 7 of 13 基于Hadoop的关键词行业分类技术研究
特征权重 R语言展示如图: 词的大小和颜色代表权重值大小 颜色从红到蓝,权重值逐渐减小 形状从大到小,权重值逐渐较小 8 of 13 基于Hadoop的关键词行业分类技术研究
相似度距离 扩展杰卡德距离: = = 9 of 13 基于Hadoop的关键词行业分类技术研究
并行化KNN算法 找出训练集中与待分类文档距离最近的k个文档, 则待分类的文档属于k个文档中占权重最大的那个分类 10 of 13 基于Hadoop的关键词行业分类技术研究
并行化KNN算法 11 of 13 基于Hadoop的关键词行业分类技术研究
系统总流程 12 of 13 基于Hadoop的关键词行业分类技术研究
结果分析 13 of 13 基于Hadoop的关键词行业分类技术研究