480 likes | 660 Views
开源仓储软件的研究应用进展及发展趋势. 曾婷 董丽 邹荣 姜爱蓉 清华大学图书馆 2010-12-10 北京. 提纲. 开源仓储软件简介 主要开源仓储软件的研究应用进展 清华大学的实践 开源仓储软件的发展趋势. 开源仓储软件简介. 仓储软件主要被用于构建数字仓储,提供数字对象的管理和服务 包括: Fedora 、 DSpace 、 Eprints 、 DAITSS 、 aDORe 等 应用场景:保存仓储、机构仓储、学科仓储、数字图书馆、内容管理系统、学术出版等 已经有较长的发展历史,得到广泛应用. 开源仓储软件简介.
E N D
开源仓储软件的研究应用进展及发展趋势 曾婷 董丽 邹荣 姜爱蓉 清华大学图书馆 2010-12-10 北京
提纲 • 开源仓储软件简介 • 主要开源仓储软件的研究应用进展 • 清华大学的实践 • 开源仓储软件的发展趋势
开源仓储软件简介 • 仓储软件主要被用于构建数字仓储,提供数字对象的管理和服务 • 包括:Fedora、DSpace、Eprints、DAITSS、aDORe等 • 应用场景:保存仓储、机构仓储、学科仓储、数字图书馆、内容管理系统、学术出版等 • 已经有较长的发展历史,得到广泛应用
开源仓储软件简介 • Fedora(灵活可扩展的数字对象仓储架构) • 美国康奈尔大学和弗吉尼亚大学在2003年推出; • DSpace • 美国MIT大学图书馆和惠普实验室在2002年推出; • Eprints • 英国南安普敦大学在2000年推出; • DAITSS • 美国佛罗里达图书馆自动化中心开发; • aDORe • 美国洛斯阿拉莫斯(Los Alamos)国家实验室开发;
主要开源仓储软件的研究应用进展 • 主要开源仓储软件的研究应用进展 • Fedora • DSpace • Eprints • 不同仓储之间的互操作问题
主要开源仓储软件的研究应用进展-Fedora • 在2003年5月发布1.0版本,最新的为3.4.1,之间历经20多个版本,进展迅速; • 具有灵活、可扩展的、模块化的架构; • 支持数字资产的长期保存,可通过数字对象及内容文件重构整个仓储; • 主要是一个工具包,而不是一个完整的应用
Fedora的数字对象模型 • 在版本3以后有较大的改变 • 改进之处 • 老版本中“传播器”静态绑定带来的问题 • 新版本引入内容模型架构( Content Model Architecture ,CMA) • 数字对象与内容模型关联,动态绑定 • CMA设计为一种框架,用来开发和部署内容模型驱动的仓储体系结构 • CMA的设计参考了软件工程中 • 面向对象编程 • 设计模式 • 模型驱动的架构
基本的内容模型架构关系 • 4种类型的Fedora数字对象:数据对象、服务定义对象、服务部署对象、内容模型对象。
Fedora的研究应用进展 • 英国的赫尔大学,美国的斯坦福大学和弗吉尼亚大学与Fedora Commons合作的Hydra项目 • 假设1:没有一个系统能够满足一个机构的所有需要,但是持久的方案需要具有一种共同的仓储架构 • 三个大学具有多个独特的仓储应用需求(机构库,数据保存,开放获取论文,ETD,数字化工作流系统……) • 可共享的基本功能(存放,管理,搜索,浏览,发送) • 解决:端到端,灵活可扩展,工作流驱动的应用工具包
Fedora的研究应用进展 • 由德国马普学会和FIZ-Karlsruhe合作的eSciDoc项目 • 致力于构建服务于多学科研究机构的一种数字科研平台,涵盖虚拟科研环境的整个工作流,内嵌了许多现有工具和软件包 • 包括: • 一套通用的基本服务集合,即eSciDoc基础架构(Fedora被封装/隐藏在其中) • 在该架构上面搭建的各种应用(如可应用于构建机构库的PubMan)
eSciDoc(一个通用的架构+特定的应用/服务+与已有工具的集成)支持整个研究过程eSciDoc(一个通用的架构+特定的应用/服务+与已有工具的集成)支持整个研究过程
Fedora的研究应用进展 • 葡萄牙国家档案馆发起的RODA(Repository of Authentic Digital Objects)项目 • 面向长期保存 • 基于OAIS模型和Fedora搭建的面向服务的数字仓储 • 在保存规划功能方面集成了Minho大学的CRiB(Conversion and Recommendation of Digital Objects Formats)项目相关成果 • CRiB作为RODA的一个组件
Fedora在康奈尔大学的应用 • The number, size, and variety of digital assets to be stored will continue to increase over the coming years so a flexible and extensible solution is required…… • 用Fedora来构建保存仓储 • 多个Fedora实例形成分布式仓储,构成一个本地仓储联盟 • 38台服务器,60T的数据
主要开源仓储软件的研究应用进展-DSpace • 在2002年12月发布1.0版,最新的为1.6.2 • 在2007年,通过对用户团体的调研发现 (1)主要的障碍在于混合本地化定制和新版本 (2)最需要的功能 • 模块性 • 更加容易定制的用户界面 • 对于复杂对象和版本的支持
下一代DSpace体系结构的要求 • DSpace应该具有一个解耦,稳定且独立于应用的核心 • 尽管可用于各种应用,对于普通应用情况DSpace将保持有用的可以直接使用的功能 • 版本的升级和本地化功能的兼容 • 以开放的格式导出数据以便重用和长期保存 • 将不断演变,以适应需求
DSpace • DSpace体系结构审核组在2007年发布了关于下一代DSpace体系结构的推荐说明 • 信息模型 • 插件/扩展框架 • 用户界面 • 事件机制 • 工作流…… • 部分架构上的变化已经在现有版本中体现出来 • DSpace 2.x的事件机制已经应用在1.5中 • Spring框架和Cocoon升级(XMLUI)包括进1.5.2中 • 服务已经包括进DSpace 1.6中
主要开源仓储软件的研究应用进展-Eprints • 在2000年发布1.0版,最新的为3.2.4 • 在英国应用比较广泛 • 在2007年推出的3.0版本中有较大的变化 • 插件机制 • 灵活的工作流 • 历史记录 • 即将推出的3.3版本中EPrints Bazaar • 长期保存方面的工作 • 针对Eprints的数字保存Suite • JISC资助的Preserv和Preserv2项目,KeepIt项目
不同仓储之间的互操作问题 • 数字仓储相关互操作协议 • OAI-PMH • OAI-ORE(Open Archives Initiative Object Reuse and Exchange) • 开放档案先导计划之对象重用和交换协议 • 复合数字对象的收割和处理 • SWORD (Simple Web-service Offering Repository Deposit ) • 资源提交API
不同仓储之间的互操作问题 • 若干项目/组织对这个问题进行探讨 • JISC资助的Repository Bridge项目 • LC资助的AIHT项目 • LC资助的ECHO DEPository项目 • IMLS资助的TIPR项目 • NSF资助的Pathways项目 • OR 2008会议期间的快速原型开发项目竞赛 • DuraSpace的一个奋斗目标
清华大学的实践 • Fedora系统的应用 • 中文数学数字图书馆系统平台 • 中国机械史数字图书馆系统平台 • Dspace系统的应用 • 外购电子资源的长期保存与服务平台 • 清华大学机构知识库
Fedora系统的应用 • 中文数学数字图书馆系统平台 • 始于2004年 • 得到清华大学基础研究基金,国家自然科学基金数学天元基金,EMANI国际合作项目等多个项目的支持 • 中国机械史数字图书馆系统平台 • 始于2005年 • 得到清华大学985二期数字图书馆建设项目支持
Fedora系统的应用 • 中文数学数字图书馆系统平台 • 收集中文数学类方面的古代、近代、现代研究资料的数字图书馆 • 采用了数字对象技术,基于Fedora系统提供了将各种类型的资源统一集成和发布的功能 • 包含的数字对象有: • 数学古籍与建模电子书: 164个 • 词典条目: 1275个 • 目录信息: 13363个 • 期刊: 54种 • 期刊论文: 36965篇
Fedora系统的应用 • 中国机械史数字图书馆系统平台 • 采用了数字对象技术,基于Fedora系统提供了将各种类型的资源统一集成和发布的功能 • 包含的数字对象有: • 机械技术典籍40余种 • 古代机械资料卡片12554条 • 抄本3929件 • 刘仙洲研究专题 • 古代重大发明和机械原理的重建模型图片和动画演示
Fedora系统的应用 • 扩展开发 • 提出并实现虚拟馆藏管理和服务 • 设计并实现了基于保存元数据框架的资源著录保存系统 • 设计并实现了多种格式资源的元数据转换器 • 改进了中文资源检索服务 • 增加互操作支持模块 • 应用到版本1.2.1,2.0,计划升级到3.x
DSpace系统的应用 • 外购电子资源的长期保存与服务平台 • 对外购的符合版权规定的电子资源,一方面提供资源的长期保存功能,另一方面在规定的范围内提供校内师生的检索访问服务。 • 已建成的IEEE DSpace保存服务系统,集成了200多万篇文献。 • 即将建成AIP电子期刊保存和服务系统。
DSpace系统的应用 • 扩展应用开发 • 设计并实现多种格式资源的解析器,转换器 • 逐级优化资源导入模块,以适应大批量数据加载的性能需求 • 基于XML的界面升级和定制 • 版本从1.0,1.1,1.2,1.3,1.4,1.5,1.6逐步升级,保持升级过程中数据和系统迁移的完整性和稳定性
DSpace系统的应用 • 清华大学机构知识库 • 我校OAPS数据库的建设 • 内容:本科生优秀毕业论文、大学生研究训练报告等 • 开发:分级权限控制机制的探索 • OAPS门户网站的建设 • 分布建设各学校的OAPS仓储 • 集中元数据提供检索服务 • 收割各家的元数据,进行解析处理后导入系统
DSpace系统的应用 • 从2007年底开始探索我校机构知识库的建设模式 • 部分院系有一些特殊要求 • 大平台+若干分布式的数字仓储(比如OAPS)? • 机构知识库与相关系统的关系 • 2009年正式启动我校机构库大平台的建设 • 2010年初协助清华深圳研究生院机构库的建设 • 2011年,部分院系仓储的建设
DSpace系统的应用 • 主要的工作 • 提供中文/英文两种界面 • 增强数据管理功能,尤其是增加一些批量数据管理功能,方便管理员的工作 • 完善用户管理功能,与我校的认证服务集成,实现根据用户身份的自动授权 • 提供根据不同资料类型快速定制提交界面的功能 • 对于不同来源/格式数据的预处理,批量导入 • 完善使用统计功能 • 开发清华大学作者文章版权信息查询系统 • 开发清华大学作者名规范系统……
DSpace系统的应用 • 主要思路 • 本地化的定制和扩展开发是必要的 • 本地化开发不影响DSpace主流版本的升级 • 在不同DSpace版本中能够复用本地化工作 • 因此,本地化工作需要与主流版本松耦合…… • DSpace的插件机制 • DSpace的事件机制
清华大学的实践总结 • 对于机构知识库这样的典型应用来说, Dspace作为一个完整的开源仓储软件,可以满足我们的需要 • 在数据规模变大的情况下,Dspace性能仍然存在问题 • 基于开源仓储软件的本地化工作要遵循推荐的开发模式来进行
发展趋势 • 支持复杂对象和版本的数据模型 • 遵循OAIS信息模型 • 模块化 • 易用性,middleware • 开放和清晰的开发接口 • 搜索(Lucene,Solr,……) • 以数据为中心 • 永久的数据,短暂的系统 • 仓储软件 基于存储数据的若干服务
发展趋势 • Fedora作为多个应用的核心 • 不同仓储软件,各取所长 • Fedora,保存仓储 • Dspace,机构仓储…… • 多个分布式仓储形成联盟 • 可伸缩性 • 性能问题 • DuraCloud,DuraSpace的云计算管理层服务 • 提供云存储及计算服务
欢迎各位专家和同仁指正 谢谢!