400 likes | 489 Views
内容安全技术. 文本过滤 、话题发现和跟踪. 姓名:朱凯 学号: S310060016. 文本过滤. 话题发现和追踪. 文本过滤. 文本是最常出现的应用层数据形式之一。文本过滤属于被动的内容安全技术,它不仅可以用于防火墙,也适用于阻止垃圾邮件,防范信息泄露,搜索网络敏感内容,这些应用也需要从截获或搜索到得数据中发现特定的文本内容或对文本进行分类,执行相应的安全策略 。. 文本过滤.
E N D
内容安全技术 文本过滤 、话题发现和跟踪 姓名:朱凯 学号:S310060016
文本过滤 话题发现和追踪
文本过滤 文本是最常出现的应用层数据形式之一。文本过滤属于被动的内容安全技术,它不仅可以用于防火墙,也适用于阻止垃圾邮件,防范信息泄露,搜索网络敏感内容,这些应用也需要从截获或搜索到得数据中发现特定的文本内容或对文本进行分类,执行相应的安全策略。
文本过滤 最简单的文本过滤方法采用关键词查找,通过文字串匹配算法确定文本是否包含某些特定的词,进而确认文本类别。当前,研究人员提出了很多串匹配算法,提高了匹配效率,但是,由于各个关键词的重要程度不同或他们之间的关联方式不同,发现他们的存在往往不能判断文本的特性。典型的,当系统发现一个文本包含一些不良词时,往往不能准确判断文章是从正面或从反面的角度使用这些字词,为了实施正确分类,系统可能需要知道不良词出现的频率、它们之间的关联。
文本过滤 分词 特征提取 内容分类
分词 分词是将文本语言分解为词。在英语、法语等西方语言中,空格是单词之间的分隔符号,因此计算机比较容易对西文文本分词。而中文由互相之间没有分隔的字组成,单词仍然是表达含义的单位,一个中文词包括的字数不等,因此,中文分词的目的是要将文本文字分割成具有独立含义的词。分词不但用于分解实例文本,也用在实际过滤中分解待过滤的文本。
分词词典 整词二分法 Trie索引树法 基于逐字二分法
整词二分法 分三级:首字哈希表,词索引表,词典正文。 阿 大 肝 啊 首字哈希表 第一项指针 词索引表 词典正文指针 词典正文
Trie索引树法 1.首字哈希表 •类似于整词二分的首字哈希表。它的一个单元是所对应汉字的索引树的根结点。 2.索引树结点 •关键字:单一汉字; •子树大小:以从根结点到当前单元的关键字组成的 子串为前缀的词的个数; •子树指针:子树大小非0时,指针指向子树;否则指向叶子。
Trie索引树法 啊 阿 大 肝 首字散列表入口项个数 第一项指针 关键字 子树大小 子树指针 大坝 大白 大白菜 大白天 大白话 大白鼠
索引树的优点 Trie索引树词典的优点是:再分词中,在系统对被分解的语句的一次扫描过程中,无须预知待查询词的长度,沿树下行逐字匹配即可。避免了整词二分分词词典机制中不必要的多次试探性查询。
面向文本进行即时搜索和过滤的工具—Text Filter
基本用法: 打开一个文本文件,然后点击搜索框,输入查询字符串。搜索的结果就在输入的同时被过滤出来(不匹配的文本行被隐藏),同时关键字高亮显示。
常用的文本过滤技术与原理 一、主题过滤与向量空间模型 从用户对文本信息的取舍来说,文本过滤主要是主题过滤,即根据用户模型对文本进行搜集整理,将用户感兴趣的文本提交给用户,这更多是从文本的主题方面考虑的。 譬如,用户只对体育类的内容感兴趣,或者更进一步,只对足球的内容感兴趣, “ 体育 ” 和 “ 足球 ” 都是描述文本主题的词。
向量空间模型: 向量空间模型是最简便有效的文本表示模型之一 , 它是 Salton 等人于 60 年代首先提出的。由于该模型具有表示简洁和计算简便的特点 , 因此 , 在文本检索、文本过滤和文本摘要等方面获得广泛应用 , 取得了一定的效果。一般是从文本中抽取出关键词 , 根据该词在文本的重要性 , 给每个词赋予一定的权重 , 把用户模板和未知文本均表示成向量空间中的向量 , 利用它们的夹角的余弦来进行相似度的度量。
关键词匹配算法: 关键词匹配法是以特征向量为基础 , 将文本内容转换成向量方式 , 将用户的需求模型也转变成向量方式 ,来衡量文本同用户需求的相似度 , 根据事先约定关键词匹配的 “ 过滤阀值 ” 来确定是否滤除。 关键词匹配法利用用户需求模板与待过滤文本向量的夹角余弦来衡量文本 U 与主题 V 之间的相似度。根据需要规定一个过滤阀值 Ψ , 当文本 U 与主题 V 之间的相似度大于 Ψ 时 , 说明文本 U 的内容符合主题 V, 是用户需要的信息。
二、语义分析: 网上有很多评论性的文章,这些文章往往代表作者对某一个主题的看法和立场,用户自然会有这样的需求:我只需要得到对这一主题的某种立场的文档。为此,必须提出倾向性文本过滤的概念,它基于如下考虑: 文本信息分为三种: 与主题完全无关的称为无关文本 对主题持有积极态度的称为正面文本 对主题持有消极态度的称为负面文本。 在对文本进行分析时候,不仅分析其包含的主题内容,还判断它的态度和立场,即倾向性。
例如: “ 美军轰炸伊拉克 ” 和句子 “ 伊拉克轰炸美军 ”, 向量形式都为 ( 美军 , 伊拉克 , 轰炸 ) 。两者的相似度为 1 , 使得两个句子在任何情况下 , 都是匹配的 , 其实两个句子的意思是截然相反的。造成这样误判的根本原因是未能区分句子中的主体和受体。而要解决这个问题 , 则只有通过语法语义分析 , 识别文本和句子中各个特征项的角色和作用 , 并将这种语义信息加入到模板表示和文本表示中 , 弥补统计方法的不足。
根据动作的施加和接受可以将句子分成以下四种模式 : • 主体 (who) + 行为 (what) + 客体 (whom) • 客体 (whom) + 被动词 + 主体 (who) + 行为 (what) • (3) 主体 (who) + 行为 (what) • (4) 客体 (whom) + 被动词 + 行为 (what) 算法中涉及权重策略和阈值 如果用户基于语义模式的模板中所定义的阈值为 θ , 当文本的全局权重大于等于 θ 时 , 则认为该文本与过滤模板匹配。
淫秽色情信息借助网络这一便捷的信息传播途径,大量涌现,对青少年健康成长构成了极大的现实威胁。清理网络色情、暴力等不良信息需要整个社会共同的努力淫秽色情信息借助网络这一便捷的信息传播途径,大量涌现,对青少年健康成长构成了极大的现实威胁。清理网络色情、暴力等不良信息需要整个社会共同的努力 如何利用技术手段屏蔽网络不良信息呢?
据中国互联网络信息中心(CNNIC)2004年1月发布的《第十三次中国互联网发展状况统计报告》报道,中国的Internet用户平均每周收到13.7封电子邮件,其中垃圾邮件占了7.9封;据中国互联网协会的反垃圾邮件协调小组2004年3月发布的统计数据,中国的Internet用户平均每人每周发送电子邮件9.8封,收到正常电子邮件12.6封,收到垃圾电子邮件19.3封。据中国互联网络信息中心(CNNIC)2004年1月发布的《第十三次中国互联网发展状况统计报告》报道,中国的Internet用户平均每周收到13.7封电子邮件,其中垃圾邮件占了7.9封;据中国互联网协会的反垃圾邮件协调小组2004年3月发布的统计数据,中国的Internet用户平均每人每周发送电子邮件9.8封,收到正常电子邮件12.6封,收到垃圾电子邮件19.3封。 对超过800家企业和服务提供商的统计数据表明,垃圾邮件的比率占信息总体的80%,同时,据该公司的统计数据显示,垃圾邮件的64.5%与特价产品及宣传信息相关,7.9%与轻松赚钱信息相关,6.6%与色情信息相关,剩余的21.2%为其他内容。从以上的数据统计来看,垃圾邮件数量已经超过了正常邮件数量,并且成逐渐增长态势,严重影响了电子邮件的应用。于是,防止垃圾邮件的泛滥成为目前技术研究的热点之一。
反垃圾邮件技术 一.IP层的反垃圾邮件技术 黑名单技术:是最早出现的一种反垃圾邮件技术,一般的邮件服务器都有该功能。黑名单技术的原理是确定已知垃圾邮件制造者及其ISP的域名或IP地址,然后将其整理成黑名单,将黑名单部署在处理网关处,拒绝任何来自黑名单上的垃圾邮件制造者的邮件。 白名单技术:原理是拒绝接收任何邮件,除非用户的邮件地址在白名单上允许接收。 实时黑名单 :是简单黑名单的扩展和发展,实时黑名单实际上是一个可供查询的IP地址列表,通过DNS的查询方式来查找一个IP地址的记录是否存在来判断其是否被列入了该实时黑名单中。
二. SMTP层的反垃圾邮件技术 域名反向解析技术对发送者的IP地址进行逆向名字解析,通过DNS查询来判断发送者IP与其声称的名字是否一致,例如其声称的名字为mx.yahoo.com而连接地址为20.200.200.200,与其DNS记录不符,则予以拒收。 这种方法可以有效过滤掉来自动态IP的垃圾邮件,对于某些使用动态域名的发送者,也可以根据实际情况进行屏蔽。
案例: 据国外媒体报道,美国InNova公司日前向法院提起诉讼,指控苹果、谷歌等36家公司不正确的使用了由InNova开发的垃圾邮件过滤技术。 拉尼尔律师事务所表示,上述公司使用了第6,018,761号专利,即用于甄别常规电子邮件与不需要的广告垃圾邮件的技术。该专利由数学家、InNova创始人罗伯特•乌米尼(Robert Uomini)拥有,他在大约15年前便向美国专利与商标局提交了这项专利的申请。 InNova在诉讼中称,“被告一直通过制造、使用和销售含有第6,018,761号专利的产品,这侵犯了InNova利益。”InNova还称,目前超过80%的电子邮件都是垃圾邮件,这也是被告为何使用InNova的技术,而不是让员工自己删除数十亿封无用的垃圾邮件的原因。但不幸的是,这些公司在并没有获得InNova的准许下,侵权使用了垃圾邮件过滤技术。 除苹果、谷歌之外,被告还包括3Com、阿尔卡特-朗讯、国际集团、美洲银行、花旗集团、爱立信、惠普、IBM、RIM、赛门铁克、雅虎等公司。
特征提取 •向量空间模型(VSM: Vector Space Model),把 对文本内容的处理简化为向量空间中的向量运算, 并且它以空间上的相似度表达语义的相似度。它 特征词条(T1 ,T2 ,…Tn)及其权值Wi来表征目标 文本。在进行信息匹配时,使用这些特征项评价未 知文本与目标样本的相关程度。 •特征词条及其权值的选取称为目标样本的特征提 取。
常用权值计算方法 文档频数 分词信息增益 互信息
文档频数 通过统计词条在文本中出现的次数,然后除以所有词条出现的总次数得到频率(TF,Term Frequency),来作为特征项的权值。
信息增益方法(Information Gain)) •信息增益表示了某一个特征项的存在与否对类别预测的影响, 定义为某特征项为整个分类所能提供的信息量,不考虑任何特征的熵与考虑该特征后的熵的差值。 •信息增益方法通过计算各特征值的信息增益来确定其权值。
互信息(Mutual Information) •互信息衡量的是某个词和类别之间的统计独立关系。 •互信息表征了特征项与类别的相关程度,在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。
内容分类 •内容分类是指过滤系统检查流经的文本、根据特征数据库判断文本属于哪一类文本的操作。 •在向量空间模型中一般通过计算流经文本特征向量(W1,……,WN)和目标特征向量(W1*,……,WN*)的相关系数来判断类别:当相关系数大于一个阈值时,可判断流经的文本属于目标特征(W1*,……WN*)对应的哪一类文本。
话题发现和跟踪 话题识别与跟踪技术是一种能自动 确定新闻信息流中话题结构的技术。它主要以网络新闻。广播和电视信息流为处理对象,将内容按话题区分,监控对新话题的报道,并将涉及某个话题的报道组织起来,以某种需要的方式呈献给用户。
话题发现和跟踪 分词报道切分 新事件识别 报道关系识别 话题识别 话题跟踪
报道切分 报道切分是指将从一个信息源获得的语言信息流分割为不同的新闻报道。一个新闻栏目通常包括很多条新闻报道,而这些新闻条目之间一般有一定的分割表示,或者在内容编码上有一些变化,这些都是分割的依据。
新事件识别 新事件识别的目标是识别出以前没有报道过的新闻话题。当前,新事件标识技术采用了类似与文本过滤的方法,它一般也用特征提取算法的到事件报道的特征向量,这些特征向量组成了事件特征库。对于一个新报道,识别系统计算它的特征向量并比较特征库中的向量,确定报道的事件是否已经存在。再不存在的情况下,系统讲这篇报道描述的事件作为一个新事件,并对事件特征库进行扩充。
报道关系识别 报道关系识别是对两篇报道实施分析,判断他们描述的新事件是否在讨论同一话题。报道关系识别技术也普遍采用特征向量比较地方法,相互比较特征向量来分析两篇报道。当特征向量相似,系统认为两篇报道在讨论同一话题。通过这种方法将报道同一话题的事件聚集在一起。
话题识别 话题识别的目的是将新闻报道归入不同的话题类。实际上,以上3种技术都是为最终的话题识别做准备的,是话题识别的前期步骤。最后通过报道关系的识别,识别系统已经将报道同一话题的大量事件聚集在一起,接下来的工作是进一步将他们整理归类并描述它们。从模式识别的角度看,话题识别可以看做对事件聚类。
话题跟踪 与话题识别不同,话题跟踪可以被看做是分类过程,它是指辨别出某个新闻报道是否属于某个已知话题的技术。通常,跟踪系统通过前期的话题识别获得了各个话题的基本特性,比较新闻报道的特征,判断出新闻报道所归属的话题。并且通过对不同网络地址范围实施搜索,话题跟踪可以判断传播情况。
End Thank you!