330 likes | 491 Views
基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua.edu.cn 清华大学图书馆 学位论文项目组 2007.09.27 南京. 主要内容:. NOW. “ CALIS 学位论文全文数据库 ” 服务体系架构 基于 OAI 和 METS 数据收割模式 基于 OAI 和 METS 数据收割实施步骤. “ CALIS 学位论文数据库 ” 服务体系架构. CALIS 数字图书馆门户. CALIS 中心. 认证中心. 计费中心. 资源调度 中心. CALIS-OID 解析中心. CALIS 高校
E N D
基于OAI和METS远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua.edu.cn 清华大学图书馆 学位论文项目组 2007.09.27 南京
主要内容: NOW • “CALIS学位论文全文数据库”服务体系架构 • 基于OAI和METS数据收割模式 • 基于OAI和METS数据收割实施步骤
“CALIS 学位论文数据库”服务体系架构 CALIS数字图书馆门户 CALIS 中心 认证中心 计费中心 资源调度 中心 CALIS-OID 解析中心 CALIS高校 学位论文数据库 分中心 读者 浏览器 DRM 阅读器 参建馆 本地系统 纸本扫描 加工 学位论文 提交与 发布系统 DRM 数字版权 保护
CALIS 学位论文参建馆本地系统涉及到三个层面: • 本馆层面 • 满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求 • 符合相关标准、规范 • 开放架构 • CALIS子项目(分中心)层面 • 纳入“CALIS高校学位论文数据库”服务体系 • CALIS中心层面 • 纳入“CALIS高等教育数字图书馆”服务体系
CALIS-OID 本地解析 对象安全 访问接口 Web 检索 全文 检索 引擎 专业 编目 文档 标准化 论文 回溯 发布 管理 学位论文参建馆本地系统结构图 DRM 阅读器 读者 浏览器 1 2 3 4 5 6 7 8 DRM 版权保护 系统(PDF) 安全 通信层 CLRC OpenURL 接口 METS 接口模块 认证 接口 计费 接口 OAI-DP 服务器 MQ 服务器 服务 接口层 Web 提交 Web 审核 应用层 纸本扫描 加工系统 论文(PDF)对象库 存储层 论文元数据库 学位论文提交与发布系统 学位论文参建馆本地系统结构图
CALIS-OID 访问 数字对象 请求 CALIS-OID 本地解析 对象安全 访问接口 参建馆本地系统与CALIS子项目中心的互操作关系 中心论文 元数据仓库 论文(前16页) 对象仓库 CALIS 学位论文 分中心 仓储层 服务 接口层 METS 接口模块 OAI收割 服务器 MQ 服务器 安全 通信层 8 1 2 3 4 5 6 7 DRM 数字版权 保护系统 安全 通信层 CLRC OpenURL 接口 计费 接口 METS 接口模块 认证 接口 OAI-DP 服务器 MQ 服务器 服务 接口层 应用层 存储层 参建馆 学位论文提交与发布系统
CALIS-OID 本地解析 对象安全 访问接口 学位论文提交与发布系统与CALIS中心的互操作关系 CALIS数字图书馆 服务门户 CALIS中心 认证 中心 计费 中心 资源调度 中心 CALIS-OID 解析中心 8 1 2 3 4 5 6 7 DRM 数字版权 保护系统 安全 通信层 CLRC OpenURL 接口 计费 接口 METS 接口模块 认证 接口 OAI-DP 服务器 MQ 服务器 服务 接口层 应用层 存储层 参建馆 学位论文提交与发布系统
本地系统升级的主要接口 • OAI和METS数据收割接口,实现元数据和对象数据的收集; • CALIS_OID解析接口,实现数字对象的解析和获取; • 数字对象安全下载接口,实现数字对象的安全下载; • CALIS ODL接口,实现CADLIS各系统之间的统一检索; • CADLIS认证/计费接口,实现认证计费。
主要内容: • “CALIS学位论文全文数据库”服务体系架构 • 基于OAI和METS数据收割模式 • 基于OAI和METS数据收割实施步骤 NOW
基于OAI和METS数据收割模式 • 模式一: OAI-DP / METS-DP+MQ联动 • 模式二: 仅采用OAI-DP
模式一:OAI-DP / METS-DP+MQ联动---收割方式(1) • 实时自动收割 • 元数据通过OAI-DP发布。OAI-DP所发布出来的OAI Record采用“CALIS OAI Record V1.0”数据格式; • 本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去,数据格式记为“CALIS METS Record V1.0”; • 元数据和数字对象之间的关系通过OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID进行关联; • 学位论文中心系统接收到OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;
模式一:OAI-DP / METS-DP+MQ联动---收割方式(2) • 手动收割 • 用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAI Record数据的XML文件,该文件称为OAI记录文件,数据格式为“CALIS OAI Record V1.0”; • 用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METS Record数据的XML文件,该文件称为METS记录文件,数据格式记为“CALIS METS Record V1.0”; • 本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;
模式一:OAI-DP / METS-DP+MQ联动---数据格式(元数据) CALIS RECORD V1.0 用于维护元数据与METS 一致的四项信息
模式一:OAI-DP / METS-DP+MQ联动---数据格式(对象数据)
模式一:OAI-DP / METS-DP+MQ联动---实际收割测试 • 2006.03月---2006.07月 • 学位论文和特色库项目验收前,采用模式一方式收割 • 学位论文本地系统在部分参建馆完成升级、数据迁移和发布工作; • 在厂商和参建馆配合下,CALIS技术中心和学位论文子项目组共同进行数据收割; • 参加测试的学校: • TPI:中国人民大学,中国农业大学 • TRS:清华大学 • 北大方正:北京大学 • 杭州麦达:北京大学医学院
模式一:OAI-DP / METS-DP+MQ联动---实际收割测试 • 收割结果 • 实时自动收割: • 本地系统和数据都存在问题 • 中心系统对本地系统的自动收割难以有效进行 • 手工收割: • 本地系统能顺利提交数据 • 但所上传的数据仍存在问题 • 本地系统存在的主要问题 • 系统bugs • 数据问题
模式一:OAI-DP / METS-DP+MQ联动---实际收割测试(系统bugs) • OAI-DP本身的bugs • 比较容易发现。但本地管理员仍缺乏有效易用的工具; • METS-DP本身的bug问题以及MQ配置问题 • 难以由本地管理员自行发现; • OAI-DP+METS-DP+MQ联动问题 • 厂商技术人员和本地管理员都难以测试和发现; • 其他问题 • 著录和导入工具不完备; • 本地DP所在机器软硬件系统的不稳定; • DP本身的稳定性和可靠性问题 ; • METS包传输丢包问题;
模式一:OAI-DP / METS-DP+MQ联动---实际收割测试(数据问题) • 数据不符合schema • 导出的OAI和METS包文件,其数据不符合schema • 数据必备性问题 • 很多数据项缺乏,不符合子项目组的数据规范性要求 • CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能 • 数据内容不一致问题(尤其是OAI记录和METS记录之间的不一致) • OAI记录中的about内容不合逻辑 • 如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。 • 元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。 • METS包中的时间戳应与OAI-about中的时间戳一致等。 • 数据的语义问题 • 张冠李戴
模式一:OAI-DP / METS-DP+MQ联动---实际收割测试(问题原因) • 本地系统的著录工具问题 • 单条入库的元数据和数字对象在必备性、一致性等方面存在问题。 • 本地系统的批量导入工具问题 • 批量入库的元数据和数字对象在必备性、一致性等方面存在问题; • 批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。 • 统计结果的一致性问题 • 本地OAI-DP、METS-DP实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。——由内部检索机制不一致因素所造成。 • 本地系统缺乏有效的“数据质量检测工具/模块” • 在OAI-DP和METS-DP发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。 • 管理员无法自行发现上面的“数据问题”。
模式二:仅采用OAI-DP收割 • 为解决模式一收割中的系统和数据问题,CALIS管理中心于2006年10月招集厂商开会,提出模式二; • 厂商依据规范要求,改进和完善系统; • 模式二: 收割方式 • 实时自动收割 • 手动收割
模式二:仅采用OAI-DP收割 ---收割方式(1) • 实时自动收割 • 元数据和数字对象仅通过OAI-DP发布。发布出来的OAI Record采用“CALIS OAI Record V2.0”数据格式; • 学位论文中心系统接收到 OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;
模式二:仅采用OAI-DP收割 ---收割方式(2) • 手动收割 • 用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALIS OAI Record V2.0”; • METS-DP中的数字对象数据无需再单独导出; • 本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;
模式二:仅采用OAI-DP收割---数据格式 CALIS Record V1 CALIS Record V2
模式二:仅采用OAI-DP收割---数据格式 CALIS Record V2,无Mets
模式二:仅采用OAI-DP收割---实际收割测试 • 2007.09月 • 参加测试的学校: • TPI:中国农业大学 • TRS:清华大学 • 北大方正:北京大学 • 杭州麦达:北京大学医学院
比较: 模式一与模式二----在系统部署和维护方面
比较: 模式一与模式二----结论 • “模式二”是对”模式一”的简化,相应的系统改造、升级、部署、维护等。 工作量和难度都得大为减少, 模式二 的易用性和可管理性都大为提高; • 其中“模式二”的手动收割,更为安全稳定,CALIS特色库的大批量数据收割均采用该方式; • 学位论文本地系统的收割模块: • TPI: 支持模式二的实时自动收割、手动收割; • 北大方正:支持模式二的实时自动收割、手动收割; • 麦达:支持模式二的实时自动收割、手动收割; • TRS:支持模式二的手动收割;
主要内容: • “CALIS学位论文全文数据库”服务体系架构 • 基于OAI和METS数据收割模式 • 基于OAI和METS数据收割实施步骤 NOW
基于OAI和METS数据收割实施步骤---针对模式二(手动收割)基于OAI和METS数据收割实施步骤---针对模式二(手动收割) • 1)现有系统升级----公司介绍 • 2)数据导出----公司介绍 • 3) 数据质量检测 • 4)通过FTP方式提交