SEWM'05 中文网页分类评测

SEWM'05 中文网页分类评测 龚笔宏,gbh@net.pku.edu.cn 北京大学网络与分布式系统实验室 2005-09-27

主要内容 • 网页分类评测介绍 • 评测流程 • 评测结果 • 总结及讨论

1.中文网页分类评测介绍 • 中文网页分类在各个领域的广泛应用 • 挑战和机遇:在传统的模式识别的技术基础之上，开展针对Web网页特性的研究工作。 • 存在的问题：缺乏一个标准的评测工具以及评测方法,不同的数据集将会得到不同的评测结果。

1.中文网页分类评测介绍 • 第一次中文网页分类评测： • 2003年第一届全国搜索引擎及Web挖掘大会 • 评测流程 • 现场手工选取测试网页（共28个） • 现场各参赛队进行分类 • 检查分类结果，打分并给出结果 • 规模小，不足以真实的反应分类器的情况

1.中文网页分类评测介绍 • 我们的目的： • 为这个领域的研究人员提供一个交流的机会 • 希望在国内外各个研究小组的共同参与下建立并完善以中文为主的分类训练集，以进一步促进中文Web分类技术的发展。 • 评测网页分类的核心技术, 考察分类结果的准确性以及全面性。

2.评测流程 • 训练集说明:2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生，人工选取形成了一个全新的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例。

2.评测流程 • 手工选取测试网页 • 没有直接采用训练集中的一部分网页作为测试集的原因 • 为了公平起见 • 训练集中的网页都是手工挑选的，类别特征明显的页面 • 另行选取测试网页，更能够真实的体现互联网上网页的特征

2.评测流程 • 测试网页的选取原则 • 不是纯英文网页 • 不限编码格式 • 网页平均分布于各类别中,每个类别100个测试页面 • 不限网页文字多少

2.评测流程 • 测试网页的选取流程 • 从CWT100g中随机抽取2000个网页 • 手工对这2000个网页进行分类（但是由于随机页面的类别分布并不均匀，分类结果并没有达到预期目标） • 以2000个网页为种子，在CWT100g中寻找同站点的页面作为候选页面 • 手工加程序辅助对候选页面进行分类，直至达到预期目标 • 最终得到一共1100个测试页面，每个类别100个

2.评测流程 • 参赛队的参赛流程 • 参赛队申请获得所需数据（包括CWT100G ,以及分类器训练集数据） • 各参加评测单位建立分类系统，给出CWT100G中所有网页的类别号 • 2005年8月25日零点之前提交结果 • 根据前文所人工选取的测试集，检查每份结果的分类质量 • 最终提交了有效结果集的共有5个单位，9份结果

2.评测流程 • 评测指标：主要有精度presicion,召回率recall,宏观F1值 • P值其中是经分类系统输出分类结果为第i类的文档个数, 是在中分类正确的文档个数。 • R值其中为所有测试文档中，属于第i类的文档个数；是经分类系统输出分类结果为第i类且结果正确的文档个数 • F1值

3.评测结果 已提交结果的队伍：

9组结果的Macro_p,Macro_R,Macro_f1值如下：

11个类别上各组结果的表现(f1)

评测结果的分析 • 所有结果的f1值都在50%~60% 之间 • 同一分类器在不同类别上的表现大不相同,“医疗与健康”，“教育”等类别普遍表现较好。

4.总结及讨论 • 下一步的工作讨论： • 测试集的大小 • 目前测试集共1100个测试页面，平均每个类别100个网页 • 分类评测与信息检索评测的不同 • 是不是有必要扩大规模？扩大有没有意义？ • 评测形式 • 单独的分类评测 vs. 结合其他的应用

谢谢!

SEWM'05 中文网页分类评测

SEWM'05 中文网页分类评测

Presentation Transcript

SEWM'07 中文网页分类评测