640 likes | 850 Views
Automatic Extration of Web Data --Web 数据的自动抽取. 参考文献. Nora Derouiche, Bogdan Cautis, Talel Abdessalem. Automatic Extraction of Structured Web Data with Domain Knowledge.IEEE ICDE 2012
E N D
Automatic Extration of Web Data --Web 数据的自动抽取
参考文献 Nora Derouiche, Bogdan Cautis, Talel Abdessalem. Automatic Extraction of Structured Web Data with Domain Knowledge.IEEE ICDE 2012 TalelAbdessalem,BogdanCautis,NoraDerouiche.ObjectRunner Lightweight, Targeted Extraction and Querying of Structured Web Data. Bing Liu著. 俞勇等译.Web 数据挖掘(第2版).清华大学出版社 赖春波.Web信息自动抽取技术研究.浙江大学硕士学位论文
术语及相关背景 信息提取/抽取(Information Extraction) 概念:指从一段文本中抽取指定的一类信息(例如事件、事实)、并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。 信息提取的“8字方针” 识别(命名)实体,确定(语义)关系
术语及相关背景 信息提取 中旅国际 … DB Interface 信 息 提 取 书籍信息 旅行线路 个人简历 天气预报 餐厅推荐 招聘广告 …… 淘宝 … 卓越亚马逊 … 语料库 内容索引库 用户界面
术语及相关背景 信息提取涉及到两个方面的因素 用户指定感兴趣的信息特性,以及待分析的文本集(数据源); 系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。
MUC的IE任务定义 • 5个典型的提取阶段: - NE (Named Entities) - ER (Entity Relations) - Template Scenario (模板场景) - Coreference (共指) - Template Merger(模板合并) • 具体提取哪些 NE, ER, Scenario 以及做哪些Coref, Merger 是任务相关的。 备注:MUC是指Message Understanding Conference
5个典型的提取阶段: - NE (Named Entities):提取文本中相关的命名实体,包括人名、机构/公司名称、书名等的识别 - ER (Entity Relations):提取命名实体之间的各种关系(事实) Write_of(作者,范明), price_of(数据挖掘导论(完整版) , ¥ 47.70 ) - Template Scenario (Event Structures):事件结构 召开会议(Time<…>, Spot<…>, Convener<…>, Topic<…>) - Coreference (Identity descriptions) :代词、名词共指 - Template Merger : 相同事件的合并
术语及相关背景 信息抽取的三种方法: 1)手工方法(Manual Approach):通过观察网页及其源码,由编程人员找出一些模式(Pattern),在根据这些模式编程抽取目标数据。 2)包装器归纳(Wrapper Introduction):有监督的学习方法,半自动的。这种方法从手工标注的网页或数据记录集中学习一组抽取规则,随后这组规则即被用于从具有类似格式的网页中抽取目标数据项。 3)自动抽取(Automatic Extration):无监督的学习方法。给定一张或数张网页,这种方法自动从中寻找模式或语法,以便进行数据抽取。这种方法不需要进行手工标注,可以用于处理大量站点和网页的数据抽取工作。
术语及相关背景 包装器的缺陷: 手工标注不适合对大量站点进行抽取 包装器的维护的开销会很大:Web是一个动态的环境,站点不断地变化。如果一个站点改变了它的格式模板,那么现有的针对该站点的包装器将会失效。 网站中的数据记录通常是用很少的模板来编码的,故自动提取是可行的!!
术语及相关背景 Web自动抽取的过程
术语及相关背景 预处理过程主要是对网页集合进行XHTML/XML规范化。 网页聚类的目标是尽可能的把输入的混乱网页集合中/实际上0属于同一模板生成的网页(相似度较高)归为一类。 模板生成是在网页聚类的结果上,对属于同一类的网页进行共性分析,从而生成这类网页的最佳抽取模板。 抽取过程实际上也是一个DOM树的匹配过程,对于输入网页中映射到模板的数据字段的节点,我们抽取出这个节点的内容到特定数据字段。 数据标记过程就是为抽取出的数据字段添加语义信息的过程。
术语及相关背景 书籍信息的信息抽取 任务: 按分类收集各网站书籍的所有信息,以便用户或其他人需要时查询 需求:希望系统能够直接对各网站进行搜索和信息提取,然后得到一个包括了大量书籍信息的数据库文件,以非常方便地使用标准的数据库系统来浏览和查询这些信息(必要时再调出原文作更细致的考察)。
术语及相关背景 这种页面也叫列表页面(List pages)
术语及相关背景 这种页面也叫单一页面(singleton pages)
术语及相关背景 举例说明
术语及相关背景 <HTML><body> <div id="atfResults" class="list results apsList"><div id="result_0" class="fstRow prod celwidget" name="B008RVQHHE"> <div class="linePlaceholder"></div><div class="image imageContainer"> <a href="http://www.amazon.cn/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6%E4%B8%9B%E4%B9%A6-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-%E6%A6%82%E5%BF%B5%E4%B8%8E%E6%8A%80%E6%9C%AF-%E9%9F%A9%E5%AE%B6%E7%82%9C/dp/B008RVQHHE/ref=sr_1_1?s=books&ie=UTF8&qid=1368498914&sr=1-1&keywords=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98" target="_blank"><img src="http://ec4.images-amazon.com/images/I/51ydR-eztrL._SL160_PIsitb-sticker-arrow-dp,TopRight,12,-18_SH30_OU28_AA160_.jpg" class="productImage" alt="产品详细信息"/></a></div> <h3 class="newaps"> <a href="http://www.amazon.cn/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6%E4%B8%9B%E4%B9%A6-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-%E6%A6%82%E5%BF%B5%E4%B8%8E%E6%8A%80%E6%9C%AF-%E9%9F%A9%E5%AE%B6%E7%82%9C/dp/B008RVQHHE/ref=sr_1_1?s=books&ie=UTF8&qid=1368498914&sr=1-1&keywords=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98" target="_blank"><span class="lrg">计算机科学丛书:数据挖掘:概念与技术(原书第3版)</span></a> <span class="med reg">韩家炜、Micheline Kamber、裴健、 范明 机械工业出版社 (2012-08出版)</span> </h3> <li> <span class="med avblity"> 部分地区<span class='bld grn'>今天</span>或<span class='bld grn'>明天</span>即可送达</span> </li><li class="sect mbc">更多购买选择 - 平装</li> <li class="med grey mkp2"> <a href="http://www.amazon.cn/gp/offer-listing/B008RVQHHE/ref=sr_1_1_olp?s=books&ie=UTF8&qid=1368498914&sr=1-1&keywords=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98&condition=new" target="_blank"><span class="price bld">¥51.20</span> 新品 <span class="grey">(57卖家)</span></a></li></ul> <span class="rvwCnt">(<a alt="平均4.4 星" class="longReview" href="http://www.amazon.cn/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6%E4%B8%9B%E4%B9%A6-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-%E6%A6%82%E5%BF%B5%E4%B8%8E%E6%8A%80%E6%9C%AF-%E9%9F%A9%E5%AE%B6%E7%82%9C/product-reviews/B008RVQHHE/ref=sr_1_1_cm_cr_acr_txt?ie=UTF8&showViewpoints=1" target="_blank">30条评论</a>)</span> </li> <li> 中文图书满80元返2张25元鞋靴满减券 <a href="http://www.amazon.cn/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6%E4%B8%9B%E4%B9%A6-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-%E6%A6%82%E5%BF%B5%E4%B8%8E%E6%8A%80%E6%9C%AF-%E9%9F%A9%E5%AE%B6%E7%82%9C/dp/B008RVQHHE/ref=sr_1_1_det?s=books&ie=UTF8&qid=1368498914&sr=1-1#productPromotions" target="_blank">查看详细资料</a></li> </HTML ></body>
术语及相关背景 事件模板
术语及相关背景 命名实体与关系 <NamedEntities> <BookList> 计算机科学丛书:数据挖掘:概念与技术(原书第3版) 数据挖掘导论(完整版) </ BookList> </NamedEntities> <EntityRelations> write_of(数据挖掘导论(完整版) 作者 , 陈封能(Pang-Ning Tan)、斯坦巴赫(Michael Steinbach)、库玛尔(Vipin Kumar)、 范明) </EntityRelations>
术语及相关背景 Sample pages
术语及相关背景 Entity typeti Complextypes defined in reclusive manner(递归) t =[{ti}, mi], {ti}:a set of instances of type ti (atomic or not) mi :a multiplicity constraint that specifies restrictions on the number of ti instances in t [n-m,*(0或多),+(1或多),?(0或多),1] • Recognizer ri • user-defined regular expressions • system predefined ones (e.g., addresses,dates, phone numbers, etc) • open, dictionary-based ones (isInstanceOf recognizers) Structured Object Description(SOD) SOD可以表示任何复杂的类型,并可能通过附加数值,文本或消歧规则来补充。
术语及相关背景 Structured Object Description(SOD) SOD可以表示任何复杂的类型,并可能通过附加数值,文本或消歧规则来补充。 对于每一个给定的SODs和数据源S,模板ז描述了SOD s 是如何从Si页面中抽取出来的。 SODs中的每组实体类型type t =[{ti },mi ] ,模板ז定义一个sept(分离符),代表了实体类型ti被这些分隔符隔开。 对于每组类型type t ={t1,...,tk },模板ז定义了k个类型的k个实例组成了t,被这些分隔符隔开。
术语及相关背景 Structured Object Description(SOD) 某饭店网页的类型树
对于包含一个SOD s和一组源{S1,……,Sn}的输入 1.给s里的实体类型(entity types)建立类型识别器(type recognizer) 2.对于每个源Si,做如下操作: 1)在页面中找到并标注实体类型实例 2)查找页面的一个样本集 3)在样本的基础上推出模板זi(s,Si) 4)使用模板זi来提取源Si里s的所有实例 3.利用提取过的对象来完善识别器 The extraction template
提取过程与实现 数据抽取的的两个步骤 自动标注 提取模板的构建
提取过程与实现 预处理过程 数据清洗 找出最可能的中心片段(有用的片段) 利用JTidy将不规则的HTML页面转换为XML页面 A.建立类型识别器(Type recognizers) 1.查询知识库(YAGO本体) 2.在Web里直接查询用户的给定的实例。
提取过程与实现 B.注释和选择页面样本 • 1.输入:参数(如样本大小为k),源Si,SOD s • 2.样本集S = Si • 3.将s中的实体类型按选择性评估排序 • 4.对于s里面每个实体类型t • { • 5. 查找并标注S中的t • 6. 计算每个页面的得分 • 找到S里得分最高的已标注页面S’,使得S = S’ • } • 9.返回源S里得分最高的k个页面(用于构建提取模板)
提取过程与实现 标注 上图为根据页面p1所构建的DOM树,其中标注过程会利用DOM来完成,标注结果会被表示为类型标注DOM树
提取过程与实现 页面选择 count(i,t,p)--(i,t)在语料库中用模式p的点击数 count(i)是i在语料库中的点击数 count25—25%时的点击数
提取过程与实现 页面选择 其中,tf(i):term frequency(检索词频率)
提取过程与实现 C.生成包装器(Wrapper) 输入:SOD s 输出:提取模板ז 发生向量(occurrence vector) 例如p1,p2,p3中的<div>的发生向量可以表示为<3,3,6> 等价类EQs:在页面中具有相同频率的标签集
提取过程与实现 如p1和p2的<div>个数一样,所以p1 .<div>和p2.<div>就是一个等价类
提取过程与实现 非冲突标注(non-conflicting annotations ): 当token(html标签)有相同类型的标注或者根本没有被标注时,就可以说这些token含有非冲突标注 冲突标注(conflicting annotations): 当token有不同类型的标注,就可以说这些token含有冲突标注
提取过程与实现 C.生成包装器(用于区别HTML的各标签) • 算法用于区别HTML页面中的各标签 • 1.repeat • repeat • 查找等价类 • 处理无效等价类 • if 中止条件成立 then • 停止进程 • end if • 利用Eqs区别标签+非冲突标注的作用 • 直至 fixphoint • 利用等价类——冲突标注来区别各标签的作用 • 直至 fixphoint
提取过程与实现 C.生成包装器(用于区别HTML的各标签)
提取过程与实现 D.输出模板 左边的SODs包含了两个元组类型{t1,{},t3}和{t31,t32}以及一个集合类型{t2}
提取过程与实现 D.输出模板
提取过程与实现 E.提早结束包装器生成 在标注阶段 对于给定的SOD 1.选择标注含有较高满意度的页面样本集,依据满意度临界值来停止 2.依据可视块的粒度(注释的多少,文中是阿尔法取50%) 在包装器生成阶段 在迭代过程中,进程可以被停止(见算法2)
ObjectRunnersystem Figure : Extraction interface
ObjectRunnersystem Figure : Query interface
实验结果及对比 Datasets Five different domains: concerts, albums, books, publications and cars Concerts Books Date (optional) Date (optional) price title title authors authors title price artist date artist location author author Address (optional) theater Albums Publications date Cars Car brand price
实验结果及对比 查全率和准确率不可能同时达到最优 信息抽取的一般评价标准
实验结果及对比 Correct attributes—Ac Correct objects—Oc Partially correct attributes—Ap Partially correct objects—Op Incorrect attributes—Ai Incorrect objects—Oi The pecision for correctness—Pc The precision for patially-correctness--Pp 其中,No=Oc+Oi+Op