SEWM2008 中文 Web 检索评测

SEWM2008中文Web检索评测 闫宏飞 School of EECS, Peking University 4/13/2008

内容 • 评测任务介绍 • Task1：主题网页发现和网页内信息块发现 • Task2：非网页数字资源分类 • Task3：垃圾邮件过滤 • http://www2.scut.edu.cn/antispam/ • 见华南理工大学，陈彬报告 • 测试集构建 • Task1评测结果 • 总结

Task1：主题网页发现和网页内信息块发现 • 包括两个子任务 • Task1.1：主题型网页发现 • Task1.2：网页内容信息块发现

Task2：非网页数字资源分类

Task2背景 • 对非网页资源的访问需求首次超过网页信息查找和邮件，成为拉动网民使用互联网的第一因素。[2007.12，CNNIC报告] • 非网页资源 • 通过互联网传播共享 • 以文件目录为主要存储组织结构 • 内容独立、构成完整、主题明确。具有一定质量和公共访问需求的数字化实体

Task2研究意义 • 网络资源现状 • 数量越来越多 • 发布和管理是无序的 • 命名、传播、组织都具有较大随意性 • 对随意性强的非网页资源的自动组织可应用于数字图书馆、网络教学资源库藏、专题内容管理系统等领域 • 首要任务：自动分类——给定资源实体的属性，预测其主题类别。

Task2可行性探讨 • 本次评测提出： • 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息，合理形成特征，找到适当的分类方法，预测资源的内容类别 • 理由： • 1）这些属性比资源文件本身更容易获取 • 2）是各种资源共有的属性 • 3）避免了对内容分析的复杂和限制 • 4）名字提供了多种浓缩信息（内容类别、关联、时间、版本等） • 探讨：通过这些“低成本”特征，利用已知的自动学习技术，解决非网页资源这种带有自身结构，具有复杂数据类型的实体分类。

Task2评测主旨 • 如何从给定资源属性中确立适用于分类的特征 • 什么样的分类方法适合解决数字资源分类问题

CDAL16th数据集介绍 • CDAL16th • 互联网上搜集近1.7万数字资源 • 人工标注主题类别。类别体系是层次分类式 • 是CWT数据集系列的一种。 • 评测使用： • 1个训练数据集cwt_cdal_train(9346) • 1个用于评测结果的数据集cwt_cdal_test(6223) • 类别的样本分布不均匀，剔除样本稀少的类别，共选用26个中等层次的类别及其中资源。

Task2评测指标 • 总体正确率 • Macro-F1 ，其中m表示类别数

参赛队所使用的方法(1/3) • SDU： • 特征选择： • 文件格式（理由：一种文件格式往往只存在于特定类） • 一定格式文件的平均大小（理由：相同格式的文件在不同类资源中大小不相近） • 资源大小 • 上下文环境（通过资源名、文件名、子目录名作关键词，提交搜索引擎返回相关网页。对网页内容分析，提取高频词） • 分类方法： • KNN • SVM • 使用了资源上下文环境中提取出的高频词

参赛队所使用的方法(2/3) • PKU： • 特征选择： • 前缀：资源名、文件名、子目录名切分出的片段； • 名字浓缩了用户想要表述的信息，处于书写习惯会有分割信号将其彼此隔开； • 资源名承载了用户命名的行为，同类资源有趋同模式。典型例子：如divx格式的电影名多是点号分割、软件类资源中win、tar等高频词汇片段 • 组成片段之间语序和位置关系不强，近似相互独立 • 后缀：文件格式 • 文件名后缀（理由：后缀对类别有一定提示作用）

参赛队所使用的方法(3/3) • PKU • 分类方法： • Naive Bayes+Simple Good-Turing平滑（理由：特征满足条件独立假设；分类方法的理论基础简洁而坚实。且好的平滑方法能够处理统计方法中经常遭遇的稀疏问题） • 名字切分依据：字符类型变化+出现标点符号+大小写转换。 • 训练中尝试了使用所有特征的60%、80%和100%对分类效果的影响，最后选用100%特征（名字切分所得片段）训练模型参数

Task2评测结果 CDAL16th

Task2资源类别

Task2评判 • 对本次竞赛所使用的数据集而言： • 宏观F1 ：SDU2（使用了SVM方法+文件平均大小+资源大小+网页扩展信息）最高，其次是SDU3（SVM）、PKU1（Naive Bayes）、SDU1（KNN） • 总体正确率（AC）：SDU3（使用了网页扩展信息中提取的上下文高频词）最高、其次是SDU2；SDU1与PKU1接近。 • 祝贺SDU-邵海敏、王川川！

结果分析(1/3) • 正确率的影响因素 • 网页文本对数字资源实体的扩展 • 资源实体的样本分布不均匀——互联网上热点资源（影视、歌曲等）的样本数目远大于其他类别，这些资源在互联网上对应的相关文本描述又非常丰富，所以针对性地从网上搜集扩展信息，有助于提高资源的分类正确率。但是受限于类别。 • 对于大量存在的非热点资源，甚至多数是用户自行组织制作的有价值资源，网上并不能找到有关描述。而这部分资源可能更有保存价值（副本少易消失的智力财富）

结果分析(2/3) • 词频与概率 • 分类方法上： • KNN & SVM中每个分量的量化基于词频 • Naive Bayes，将词频信息化为概率分布 • 特征采集上： • 基于词频：SDU一个很聪明的观察：”两个类别相同的资源，其中的名字所在的上下文环境应有较大共性”。结合词汇对类别区分度的启发式处理，适应在样本规模不大、可用特征受限的情况。 • 基于概率：理论基础坚实，更少的主观因素。NB方法需要结合合理的平滑算法，能够用更低代价的特征采集方式（名字按照其中出现的分隔符或大小写等自然分隔切分形成特征）获得与较多处理手段得到的特征大致持平的精度。

结果分析(3/3) • 特征的使用量 • NB方法只使用了名字的前缀、后缀。 • KNN & SVM则采用了文件平均大小、资源总size等信息。从结果上看，文件大小和资源字节数对正确性做出贡献较少。

组织本次任务评测的感受 • 尽管数字资源分类有广泛的应用，多数研究人员还没有开始重视这一领域，参赛队只有2个，共4组结果。事实上，该问题的难度和挑战都是值得认真对待的。 • 我们的宣传不够。首次组织，经验也不足。 • 希望能有更多的人关注，想出更多更有效的处理方法！

内容 • 评测任务介绍 • 测试集构建 • Task1评测结果 • 总结

CWT70th数据集介绍 • 采样过程 • 用训练集做种子，抓取四层网页，在2008年1月搜集中国范围内71,502个网页 • CWT70th中的URL列表,共计71,502个 • 网页数据文件 • 网页编号文件文件格式

Task1&2：提交结果的参赛队

Task1.1评估准则（1/2） • Macro-Precision = • 各组主题型网页判断正确的数目 / 各组认为是主题型的网页总数 • Macro-Recall = • 各组主题型网页判断正确的数目 / 实际的主题型网页总数 • Macro-F1 = • 2* Macro-Precision * Macro-Recall / （Macro-Precision + Macro-Recall）

Task1.1评测结果（1/2）

Task1.2 评估准则 • Macro-Precision = • 各组内容信息正确提取的长度 / 各组提取的内容信息总长度 • Macro-Recall = • 各组内容信息正确提取的长度/ 人工标记的内容信息总长度 • Macro-F1 = • 2* Macro-Precision * Macro-Recall / （Macro-Precision + Macro-Recall）

评测从设计上和数据上总结 • 数据集的不够有代表性，集中在几个网站。 • 对主题型网页的定义不够清晰。 • 对内容信息块的定义不够清晰。 • 由于标记样本网页工作量很大，准备不够。 • 弥补办法 • 增加了评测指南附加说明 • 新标记了一些样本网页

Task1.1解题方法总结（1/2） • 结果较好的队伍华南理工一队和大连理工，分别代表了 • 网页整体性判断,综合使用了启发式规则和分类器方法 • 网页分块判断,在网页分块的基础上，判断各个网页块的类型。

Task1.1解题方法总结（2/2） • 综合所有队伍提取和使用的特征信息，大致有如下几类： • url相关的特征信息 • URL中数字的个数、URL的深度以及URL的后缀。 • 链接相关的特征信息 • 包括链接数、链接文字与非链接文字比、链接标签占网页的所有标签的比率、链接文本内容占全文内容的比率、非链接文字的长度等等。 • 其他特征信息 • 包括网页文本内容中标点符号的个数、正文的文字长度、特殊标签（如<p>, <br>,<h1>）是否出现，以及包含特殊关键词与否。

Task1.2解题方法总结（1/2） 实现方法可大致分为 • 网页整体性判断 • 网页分块判断两种 • 各队的分块方法都比较简单。

研讨会时间表 • Overview: • 14:00-14:30 北京大学，闫宏飞，SEWM2008中文Web信息检索 • 非网页数字资源分类 • 14:30-14:45 山东大学, 陈竹敏 • 主题网页发现和网页内信息块发现任务： • 14:45-15:00 大连理工大学，孙晓玲， • 15:00-15:15 华南理工大学2队,魏本洁 • 15:15-15:30 山东大学，陈竹敏 • Overview: • 15:30-15:50 华南理工大学，陈彬，SEWM2008垃圾邮件过滤 • 垃圾邮件过滤 • 15:50-16:05 黑龙江工程学院，齐浩亮 • 16:05-16:20山东大学，陈军 • 16:20-16:35 大连理工大学，苏绥 • 16:35-16:50浙江大学,澎鹏

CS402 Mass Data Processing/Cloud Computing(Summer 2008, preparing) • http://net.pku.edu.cn/~course/cs402/ • Course description • 网页全文索引，镜像网页消重，垃圾邮件过滤，天气模拟，星系模拟，上亿字符串的排序…….，你想不想了解如何在大型分布式网络上写少量的具体问题代码来做这些事情吗？ • 这些应用，可以使用MapReduce 分布式计算完成，它已经在Google 得到了广泛使用。在这为期5 周的课程中，你会学习到：1）分布式系统的相关知识；2）MapReduce 理论和实践，包括：认识和理解MapReduce 如何适用于分布式计算，明白它适合哪些应用，不适合哪些应用，实践中的提示和技巧；3）通过几个编程练习和一个课程项目，获得实际分布式程序设计技术经验。 • 课程练习和项目将使用Hadoop（开放源代码实现的MapReduce）。使用集群由网络实验室提供，需要学生自备能够无线上网的笔记本（用于连接集群操作），我们会尽量安排在能够无线上网的教室，并尽量为大家争取到上机实习的机会。

SEWM2008 中文 Web 检索评测

SEWM2008 中文 Web 检索评测

Presentation Transcript

PPM based Spam Filtering in SEWM2008