360 likes | 471 Views
基于元数据的海量 Web 数据定位共享技术研究. 答辩人 : 姚彩云 指导 老师 : 周 晓方 陆嘉恒 教授 专业 方向: 计算机软件与 理论. 目录. 研究背景 数据存储和管理标准 数据 服务架构 实验与优化 总结展望. 研究背景. Web 数据的机遇 海量数据, 提供互联网历史事件面面观 The Internet Archive 、一淘网 Web 数据的 挑战 格式多样、内容涵盖面广,集成困难 来源广 , 定位共享困难. 研究背景. 数据整合共享服务 原始数据整合 Dialog : 整合了数百个数据库
E N D
基于元数据的海量Web数据定位共享技术研究 答辩人 : 姚彩云 指导老师: 周晓方 陆嘉恒 教授 专业方向: 计算机软件与理论
目录 • 研究背景 • 数据存储和管理标准 • 数据服务架构 • 实验与优化 • 总结展望
研究背景 • Web数据的机遇 • 海量数据,提供互联网历史事件面面观 • TheInternetArchive、一淘网 • Web数据的挑战 • 格式多样、内容涵盖面广,集成困难 • 来源广,定位共享困难
研究背景 • 数据整合共享服务 • 原始数据整合 • Dialog: 整合了数百个数据库 • 基于搜索引擎的浅层Web数据整合 • 本地化全文索引体系 • 基于OAI-PMH的元数据整合 • Eprints, ARC, my.OAI • 基于主题的深层Web信息整合 • DP9 • 为数据库系统建立一个专用爬行器网关
研究背景 • 相关工作 • 资源标识 • URI、URL(定位)、URN(名称) • 数据标准 • 都柏林核心集(DC) • IETF RFC 5013、ANSI/NISO Standard Z39.85-2007和ISO Standard 15836:2009 • 共享服务架构 • 开放档案计划(OAI-PMH)
研究背景 • 已有工作的不足 • 原始数据整合数据量过大 • 基于搜索引擎的整合方案难以持久化存储数据 • Web数据与Dublin Core描述的数字文献不同 • 结构差别大、重复度高 • 设计适合描述Web页面的元数据标准 • Web数据数目远远超过数字文献 • 重新设计共享服务架构 • 标识系统不够灵活
研究背景 • 研究内容 • 设计标识系统 • 准确定位原始数据 • 定义元数据集 • 元数据集定义合理实用 • 数据集成高效,冗余度小 • 设计集成、共享服务架构 • 可实用性强
研究背景 • 研究内容 • 数据爬取 • 集成资源描述 • 元数据集成 • 提交查询 • 定位资源的位置 • 获取资源
目录 • 研究背景 • 数据存储和管理标准 • 数据服务架构 • 实验与优化 • 总结展望
数据标准 • 设计目标 • 普适性 • 具有抽象资源的能力,突出信息资源的特征,并对其的进行完整描述(描述网页、微博、专利等数据) • 可用性 • 可以通过元数据获取应用必要信息 • 简约性 • 直观性:元素及属性使用类似于自然语言的标签 • 轻量性:占用的空间远比Web数据本身小
数据存储标准 • 资源 • 数据:从互联网上抓取下来的Web数据 • 集合:按某种特定方式进行批量下载的数据 • 资源描述 • XML树状结构的元数据集 • 存储着数据和集合的重要信息
数据存储标准 • 标识系统 • oid:1位字符,记录实体类型 • tid:9位字符,记录资源上传者信息 • date:6位字符,记录数据的抓取日期 • sid:不限制位数,从1开始自动累加的集合id • fid:不限制位数,从0开始自动累加的数据id
数据标准 • 核心元素 • 普适性:必选元素和可选元素 • 可用性:分析内容相关元素可以得到资源必要信息 • 简约性:元数据大小一般远远小于原始数据
数据标准 • 饱和度 • 衡量资源描述文件丰富程度的概念 • 取值范围为{0, 60~100} • 0分:资源描述文件格式不符合规范 • 60分:资源描述文件格式符合规范获得的基础分 • 加分项:可选元素的丰富程度 • 100分:格式符合规范,而且内容丰富
目录 • 研究背景 • 数据存储和管理标准 • 数据服务架构 • 实验与优化 • 总结展望
数据服务架构 • 设计理念 • 空间分布数据爬取 • 减少主控之间网络通信量 • 松耦合、可扩展性 • 高效地数据集成服务
数据服务架构 • 架构组成
数据服务架构 • 空间分布式数据爬取 4 1 2 3 5
数据服务架构 • 数据集成 • 任何组织、个人可以申请成为资源提供者 • 资源提供者负责数据爬取和元数据生成 • 资源提供者主动使用接口上传元数据 • 元数据集中服务器负责校验并集成元数据、提供服务 • 集中服务器定期备份
数据服务架构 • 服务端与用户之间的数据交互协议
数据服务架构 • 数据访问协议交互过程
数据服务架构 • 流控制 • 请求语句对应的元数据量很多,不能存放在一个资源描述文件中 • 服务端负责将长回复划分成若干部分每部分分配一个全局唯一的resumption token
目录 • 研究背景 • 数据存储和管理标准 • 数据服务架构 • 实验与优化 • 总结展望
实验优化 • 迭代实验 • 汇总863项目内部课题组的数据 • 根据课题组成员的使用体验和服务端处理遇到的问题进行相应的修改和优化 • 迭代时间 • 2013年3月,收集800w资源描述文件 • 2013年7月,收集1kw资源描述文件 • 2014年5月,收集进行中
实验优化 • 元数据轻量性验证 • 9.4TB vs. 9GB • 数据标准 • 标识符无法区分集合、资源 • 特殊数据类型 • 描述信息可获取内容较少 • 服务架构 • 镜像服务器 • 元数据上传方式
实验优化 • 标识系统 • 保留数据与集合的关系 • 数据标准 • 扩展description元素的内容 • 增加大小记录size元素 • 服务架构 • 可以设置任意多个集中服务器镜像 • 被动拉取资源描述文件
目录 • 研究背景 • 数据存储和管理标准 • 数据服务架构 • 实验与优化 • 总结展望
内容总结 • Web数据共享技术 • 海量Web数据共享架构 • 数据集成方案 • 设计共享架构的成分 • 研究共享架构交互协议 • 定义数据标准 • 元数据集设计理念 • 充分描述原始数据 • 易实施,存储利用率高 • 具有可扩展性 • 集成算法 • 数据标准校验程序 • 数据去重
内容总结 • 结论 • 基于元数据的海量Web数据集中架构 • 数据标准 • 普适性 • 可用性 • 简约性 • 服务架构 • 空间分布式数据爬取 • 低网络负载 • 松耦合、高可扩展性
未来展望 • 提高资源文件的可读性 • 资源信息提取能力基准 • 资源文件高效分析查询
研究生阶段工作 • 论文 • Caiyun Yao, Jiaheng Lu, Wei Wang, Xiaofang Zhou: XML Query Processing Using Views. WAIM Workshop XMLDM2011:136-139 • 专利 • 分布式海量Web数据爬取共享系统(申请号:201310471593.5),申请人:陆嘉恒、李欣、姚彩云
研究生阶段工作 • 参与项目情况 • 863计划课题“开放环境下海量 Web 数据抓取、集成、分析和管理系统平台与应用” • 负责数据标准和体系架构设计、实现 • 负责863 财务、各项目组的协调工作,并汇总制作项目简报