170 likes | 332 Views
华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室 曹鸿 ( 队长 ) 李嘉林 陈胜荣 朱旭圻. 全国搜索引擎与网上信息学术研讨会 SEWM 2006--- 中文文本分类. 华南木棉中文网页分类器. 目录. 系统模块 系统流程 测试结果 总结与展望. 模块结构. 网页去噪模块. 预处理 对天网格式的训练集 1 ,训练集 2 及 CWT20G 文件进行解压,得到三个网页文档集合 (11 类别训练集, 8 类别训练集,待分类网页集),一个网页对应一个文档,以 docID 命名。 去除标签
E N D
华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室 曹鸿(队长) 李嘉林 陈胜荣朱旭圻 全国搜索引擎与网上信息学术研讨会 SEWM 2006---中文文本分类 华南木棉中文网页分类器
目录 • 系统模块 • 系统流程 • 测试结果 • 总结与展望
网页去噪模块 • 预处理 对天网格式的训练集1,训练集2及CWT20G文件进行解压,得到三个网页文档集合(11类别训练集,8类别训练集,待分类网页集),一个网页对应一个文档,以docID命名。 • 去除标签 去掉无用的HTML语法标签信息 • 模板去噪 对45M训练集进行 数据集 原来大小 去噪后大小 11类别训练集 200M 68M 8 类别训练集 45M 18M CWT20G 20G 11G
模板去噪 • 使用模板去噪以后,可以比较好的去除网页中导航栏,广告条,网站介绍,公司信息,无关链接等与网页主题内容无关的噪音信息 。 • 网页模板选取 • 选取一个结构相似的网页模板。我们使用网页URL作为衡量网页模板相似性的因子。 • 在训练集找出一个网页,它的URL与待分类网页URL具有最长相同前缀,这个网页就被视为网页模板。 • 模板去噪 • 记待去噪网页为t, 选取的模板为s. 然后利用JTidy建立两个网页的DOM树,从根结点开始,依次比较,如果有相同的结点,则认为该结点为噪音信息而删除。
中文分词模块 • 中文分词使用开源中文分词系统ICTCLAS,只保留名词。 • 进行中文分词后继续进行stemming处理。 • Rainbow的禁止词是SMART system 的524个,我们进行扩充达到1500个。
特征空间压缩 • 采用了IG(Information Gain: IG)特征选择算法对数据集进行特征降维,压缩特征空间。 • 200M数据集的特征空间维数为: • 65565(共138365维) • 45M数据集的特征空间维数为: • 4800(共13024维)
分类模块 • NB:朴素贝叶斯(Naïve Bayes)算法 • SVM:支持向量机(Support Vector Machine)算法 • SVMlight算法:对joachims的二元分类器进行了改进(结合OVA算法),使其可用于多元分类,并引入加权策略(OVA-WWT),提高分类精度。
OVA-WWT策略:One Vs All With Weighted Threshold • 传统OVA,只是比较文档对N个类别的相似度,简单地取相似度最大的那个类别,由于这N个相似度是由N个不同的分类器产生,简单地取最大值作为阈值策略并不合适 • 我们提出OVA-WWT(One-Vs-All-With-Weighted Threshold)算法,在OVA算法的结果融合阶段引入加权阈值策略,以提高类别公平度,从而提高分类精度。
人工操作 • CWT20G中有1900个文件由于具有某些无法识别的字符,使用本系统不能进行特征表示。我们会先统计20G网页的分类分布情况,然后将这些网页归入到分布概率最大的那个类别中去。
目录 • 系统模块 • 系统流程 • 测试结果 • 总结与展望
训练集 网页文档 训练集 中文分词 按天网格式解压 去除HTML标签 及模板去噪 参数调优 CWT 20G 待分类 网页文档 去除HTML标签 及模板去噪 按天网格式解压 特征压缩 分 类 器 分类结果 中文分词 出错处理 特征建模 特征表示 分类模型
测试结果 • 用200M网页集的训练集部分建模,测试集部分进行测试,本分类系统的宏平均正确率达到87.61%,宏平均召回率达到84.02% ,宏平均F1值达85.78%。 • 用45M 网页集的训练集部分建模,测试集部分进行测试,本分类系统的宏平均正确率达到87.96%,宏平均召回率达到85.79%,宏平均F1值达86.86%。
目录 • 系统结构 • 系统模块 • 算法描述 • 总结与展望
总结与展望 • 相比去年的木棉分类器,增加了模板去噪技术,改进了SVMlight算法。 • 展望: • 分块权重技术:网页中不同HTML标签所表示的内容块,应该给以不同的权重 • 分层过滤:将易混淆的若干类别集中起来,独立进行第二层的分类 • 使用同义词词典 • 考虑网页间的链接关系