130 likes | 359 Views
SEWM'07 中文网页分类评测. 龚笔宏 , gbh@net.pku.edu.cn 北京大学网络与分布式系统实验室 2007-03. 主要内容. SEWM’07 网页分类评测 评测的结果及分析 总结及讨论. 1.SEWM’07 CCT 评测. 目的: SEWM ’ 05,06 CCT 测试集的做法 随机挑选大约 3,000 个页面 剔除文字少、内容含糊、无明确类别归属的网页 每类平均 100 个测试页面 在原有的评测上加大难度 对测试页面选择的,完全随机,页面质量参次不齐 . 存在类别为空的情况。. 1.SEWM’07 CCT 评测. 数据集准备:
E N D
SEWM'07中文网页分类评测 龚笔宏,gbh@net.pku.edu.cn 北京大学网络与分布式系统实验室 2007-03
主要内容 • SEWM’07网页分类评测 • 评测的结果及分析 • 总结及讨论
1.SEWM’07 CCT评测 • 目的: • SEWM’05,06 CCT测试集的做法 • 随机挑选大约3,000个页面 • 剔除文字少、内容含糊、无明确类别归属的网页 • 每类平均100个测试页面 • 在原有的评测上加大难度 • 对测试页面选择的,完全随机,页面质量参次不齐. • 存在类别为空的情况。
1.SEWM’07 CCT评测 • 数据集准备: • 在CWT20G中随机选择1000个页面 • 人工对其进行分类 • 测试集特性: • “娱乐与休闲”占了28%的测试页面,其次为 “计算机”,“商业与经济” • 无类别的页面 约20%,主要是: • 空页面 • 论坛登陆页面 • 论坛出错页面 • 平均网页大小 24.9k 5.49k~631k. SEWM’05 26.8k/30.3k
1.SEWM’07 CCT评测 • 评测指标:主要有精度presicion,召回率recall,宏观F1值 –增加“其他”类 • P值 其中 是经分类系统输出分类结果为第i类的文档个数, 是在中分类正确的文档个数。 • R值 其中 为所有测试文档中,属于第i类的文档个数; 是经分类系统输出分类结果为第i类且结果正确的文档个数 • F1值
2.评测的结果及分析 已提交结果的队伍:
2.评测的结果及分析 • 今年的评测: • 分类平均质量不如往年,可能的原因 • 测试页面噪音多,文字少,分类难度加大 • “无类别页面“的处理
3.总结及讨论 • 测试页面的选取 • 不加挑选,以符合真实情况 • 对主页型页面的分类确定 • 对”无类别“页面的确定