210 likes | 339 Views
利用分块重要度进行中文网页分类的研究. 段 昕 山东大学计算机学院. 引 言. 互联网的发展和信息量俱增使得人们对于主题网页(以下简称 “ 网页 ” )自动分类的要求越来越迫切。 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些 “ 噪声 ” 信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要一种分类质量更高的网页分类方法。. 网页分块.
E N D
利用分块重要度进行中文网页分类的研究 段 昕 山东大学计算机学院
引 言 • 互联网的发展和信息量俱增使得人们对于主题网页(以下简称“网页”)自动分类的要求越来越迫切。 • 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要一种分类质量更高的网页分类方法。
网页分块 • 网页中的信息并不都是具有相同的重要度的,比如大字标题就要比导航条更加引人注目。网页中的不同信息由于所处的位置、占据的空间大小或者内容不同而具有不同的重要度。所以,我们可以将网页按照内容分块,利用分块的一些特征来进行网页分类,从而提高分类的质量。
网页分块方法(1) • 基于位置关系的分块法 • 利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类; • 实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页; • 这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。
网页分块方法(2) • 基于文档对象模型(DOM)的分块法 • 找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构; • 特定标签包括heading、table、paragraph和list等; • 在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确地对网页中各分块的语义信息进行辨别。
网页分块方法(3) • 基于视觉特征网页分块法(VIPS) • 利用字体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树; • 利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块; • 每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起; • 利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。
网页分块重要度的标定 • 利用网页的空间和内容特征可以对分块进行重要度的标注,共分为4个级别: 级别一 广告、版权等噪声信息 级别二 导航条、网站目录等与网页标题相关 性不大但有一定用处的信息 级别三 与网页主题一致但并不是十分突出的 信息,如相关标题、标题索引等 级别四 大字标题、正文等 网页中最突出部 分的信息
实 验 • 为了检验利用网页分块技术进行中文主题网页分类的质量,我们将其与传统网页分类法进行了比较。选取政治、艺术、医药、体育、军事、经济、教育、交通、计算机、环境等10大类共计3000篇主题网页进行实验,其中训练集2000篇,测试集1000篇。
在进行特征提取时,采用了开方检验( test, CHI)特征提取法,计算特征项t和类别c的相关性如下:
分类时采用SVM分类器,核函数采用径向基函数:分类时采用SVM分类器,核函数采用径向基函数: • 最通用的判定规则是采用高斯函数:
实验描述 • 首先将整篇网页看作一个原子单元,在训练过程中,训练集实例经过中文分词和特征选取处理后被表示成向量形式,用来描述类别模式,在分类过程中使用。 • 在分类过程中,一个待分类的中文网页,经过中文分词并表示成向量后,应用分类算法与训练过程得到的类别模式逐一比较,得到候选类别列表,然后同训练过程中得到的每个类别的阈值相比较,保留大于阈值的类别,并作为该网页的分类结果。
实验描述 • 然后利用VIPS法对网页进行分块,并根据4条标准对分块进行标注,利用级别较高的分块提取文本,重复第一步工作,得到利用分块法的分类结果。
实验结果 • 在分类系统中,查全率和查准率反映了分类质量的两个不同方面,两者必须综合考虑,表示为F1测试值。本实验用F1值来衡量最终的分类质量。其中:
传统方法 分块方法 查全率(%) 查准率(%) F1(%) 查全率(%) 查准率(%) F1(%) 政 治 93.413 89.143 91.228 95.210 92.442 93.806 艺 术 93.902 98.718 96.250 96.341 98.750 97.531 医 药 91.176 95.673 93.370 91.176 100.00 95.384 体 育 99.329 98.013 98.667 100.00 98.026 99.003 军 事 86.747 85.714 86.227 90.361 87.209 88.757 经 济 95.370 91.964 93.636 96.296 94.545 95.412 教 育 91.781 94.366 93.056 93.151 97.143 95.105 交 通 94.366 94.429 94.398 95.775 97.143 96.454 计算机 91.463 96.154 93.750 98.485 97.015 97.744 环 境 91.045 96.825 93.846 94.030 96.923 95.455 总体评估(F1) 94.004 95.503
实验分析 • 实验数据中,查准率和查全率的值都比较高,这是因为我们的实验中数据集数量不是很大,并且大多采用的是较为简单的网页,广告等噪声信息相对较少的缘故。也正是因为这个原因,造成两种分类方法的分类质量差异不如理想值(5%~10%),但可以证明,基于分块重要度的网页分类法在分类质量上是要优于传统的网页分类法的。
实验分析 • 实验数据中,各类的F1值不太均衡,这跟每一类训练样本的数目有关。艺术、体育等类训练样本较多,则反映该类的特征就比较全面,SVM分类器通过学习获得的知识就比较多,所以其F1评估值就较高。而政治、军事等类,由于训练样本相对较少,分类器学习所得知识要少一些,从而影响了分类的质量,造成了F1评估值较低。
实验分析 • 政治、军事等类虽然训练样本相对较少,但在采用了基于分块重要度的分类法以后,分类质量(F1评估值)提高了2%以上,这说明在训练样本相对不足或者较少的情况下,基于分块重要度的分类方法仍旧能够取得较好的分类质量。