1.11k likes | 1.24k Views
刘炜. 数字图书馆前沿技术. 主要内容. 资源整合 Web2.0 情报检索前沿技术. 资源数字化. 纸质资源 ILS. 开放资源获取. 租订数字资源. 数字图书馆 1.0. 网站建设. 用户. 参考咨询. 读者管理. 人员培训. 资源数字化. 社区. 用户. 开放资源获取. 租订数字资源. 数字图书馆 2.0. 知识组织. 门户建设. Web 服务. 资源整合. 为什么要资源整合?.
E N D
刘炜 数字图书馆前沿技术
主要内容 • 资源整合 • Web2.0 • 情报检索前沿技术
资源数字化 纸质资源 ILS 开放资源获取 租订数字资源 数字图书馆1.0 网站建设 用户 参考咨询 读者管理 人员培训
资源数字化 社区 用户 开放资源获取 租订数字资源 数字图书馆2.0 知识组织 门户建设 Web服务 资源整合
为什么要资源整合? 参照美国肯特州立大学的曾蕾教授摘译自Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004”改编。原文http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt
Synthesise, Local CSUSM, David Walker From: Lorcan Dempsey’s presentation
资源整合(互操作)三个方面 • 技术方面:模型,格式,协议,安全 • 内容方面:数据,元数据,语义表达 • 社会方面:版权,存取规定,支付,认证
资源整合(互操作)三种方式 • 联邦搜索(Federation) • Z39.50/ZING • 非标准(页面分析) • 元数据收割(Harvesting) • OAI/ORE • 本地获取(Gathering) • Google等搜索引擎(crawling/spider) • 提交(Submit)与聚合 • 动态链接 • OpenURL
资源整合 • 基于协议标准 • Z39.50/ZING • OAI-PMH/ORE • OpenURL • Web Services(自定义WSDL/UDDI) • 非标准的整合 • 页面分析 • “前”标准:Web2.0方法
应用层协议 应用层 应用层 表示层协议 表示层 表示层 会话层协议 会话层 会话层 传输层协议 传输层 传输层 网络层协议 网络层 网络层 数据链路层协议 数据链路层 数据链路层 物理层 物理层 OSI参考模型 物理层协议 主机B 主机A
OSI模型各层协议例子 • 物理层:RS-232;RJ-45(双绞线) • 数据链路层:PPP • 网络层:IP,IPV6;IPX • 传输层:TCP;UDP;SPX • 会话层:RPC • 表示层:ASCII;JPEG/GIF;MPEG;ASN.1 • 应用层: HTTP;FTP;TELNET;Z39.50
OSI模型中数据的封装过程 应用程序 应用程序 DATA 应用层 应用层 数据 AH DATA 封 装 表示层 表示层 数据转换 PH AH DATA 会话层 会话层 数据同步 SH PH AH DATA 传输层 传输层 数据段 SH PH AH DATA TH 网络层 网络层 数据包 NH TH SH PH AH DATA 数据链路层 数据链路层 数据帧 DH NH TH SH PH AH DATA DT 物理层 物理层 比特 比 特 流 数据接收端 数据发送端
什么是Z39.50? • 美国国家标准 ANSI/NISO • 国际标准:ISO23950 • Information Retrieval (Z39.50): Application Service Definition and Protocol Specification • 信息检索(Z39.50):应用服务定义和协议规范 • Z39.50维护局(1989)与Z39.50实施者小组(ZIG,1990)
Z39.50的发展 • 起源于1984年 • ANSI/NISO Z39.50:1988 • 第二版:1992;兼容ISO10162/10163 • 第二版与第三版:1995;ISO23950 • 2002: Z39.50-200X标准草案 • 2002:全国信息与文献标准化技术委员会第四分会推荐等同采用ISO23950为我国国家标准
Z39.50与相关协议 • Z39.50:应用层协议 是Z39.50应用程序通过网络访问另一台主机上Z39.50应用程序的协议。 • ASN.1: 表示层协议 对不同主机上的Z39.50应用层数据进行编码变换,以保证各自的应用程序能正确理解。 • ISO2709等等
Z39.50协议机制 • 搜索请求 • 搜索APDU • 搜索指示 服务提供者 (Service-provider) 2 1 3 起源方 Origin 目的方 Target 服务用户 (程序) 服务用户 (程序) APDU 4 6 5 服务端 (Server) 客户端 (Client) Z 联接 搜索响应 搜索响应APDU 搜索确认
Z39.50协议机制示例 服务提供者 (Service-provider) 服务端 (Server) 客户端 (Client) 2 1 3 起源方 Origin 目的方 Target 服务用户 (程序) 服务用户 (程序) APDU 4 6 5 Z 联接 数据库 服务器
术语解释 • 面向联接的服务与无联接服务 • A-联接(应用联接)与Z-联接 • 机制( Facility)与服务(Service) • 起源方(Origin)与目的方(Target) • 确认性服务、非确认性服务与条件确认服务
面向联接的服务与无联接服务 1. 面向联接的服务 • 先建立联接 • 再传送数据,可多次传送 • 再关闭联接 2.无联接服务 • 没有任何联系就发送消息 • 希望接收方能顺序接受所有内容
A联接与Z-联接 • A—联接:按照ACSE(ISO 8649)协议建立的应用层联接 • Z-联接:建立在A-联接基础上由初始化机制建立的两个Z主机间的应用联接 • Z主机应用程序的数据(APDU)利用ISO 8822中定义的P-DATA服务直接传送 • 一个A-联接上可建立多个Z-联接 • Socket工具已经包含了ISO8822和8649定义的功能
机制、服务、操作等 • Z39.50协议包含11个机制 • 每个机制可包含1个或多个服务 • 一个服务定义一种操作 • 一个操作由创建请求和对应的终止响应,以及其间的相关消息。例如,搜索操作总是包含一个搜索请求和搜索响应,还可能包括访问控制和资源控制消息。在一个Z-联接中可以出现多个并发操作。
Z39.50的信息检索服务机制 • 初始化(Initialization) • 搜索(Search) • 检索(Retrieval) • 结果集删除 (Result-set-delete) • 浏览(Browse) • 分类排序(Sort) 访问控制(Access-control) 记账/资源控制 (Accounting/Resource Control) 解释(Explain) 扩展服务群 (Extended Services) 终止(Close)
几个重要的基本概念 • APDU(应用协议数据单元,Application Protocol Data Unit) • Bib-1属性集 • RPN与1类(Type 1)查询 • ASN.1 语法与BER规则 • Profile(框架)
属性集 • 属性集(Attribute Set)是描述检索词的特性。Z39.50 协议中定义有15 种属性集, • 常用的有Bib-1、Exp-1、Ext-1、CCL-1、GILS、STAS。 • 每个属性集由一套属性类型以及对应属性类型的一系列属性所组成,不同的属性集有其一定的应用领域,如Bib-1 属性集起初是用在以MARC—Machine Record Catalogue 格式表示的书目记录的查询上面,主要在图书馆领域中使用,现在也用于其他格式记录和文档的查询上;Exp-1 和Ext-1 分别用于Z39.50协议所定义的说明服务和扩展服务中;GILS 用于访问美国联邦政府信息资源;STAS 用在访问科学和技术领域的信息记录。
Bib-1属性集(一) • BIB-1中的属性,在Z协议中,每一个定义的属性对应一个整数值,在传输协议的时候用这些整数值表达: • 使用属性(Use attributes):也就是查询时可以使用的检索字段,如题名、著者,定义的属性为Author、Title、Subject等; • 关系属性(Relation attributes),也就是检索的条件,如小于、大于、等于,定义的属性为less than, less than or equal, equal, greater than or equal, greater than等; • 截断属性(Truncation attributes),是一种辅助检索功能,如左截断、右截断,定义的属性为right truncation, do not truncate等;
Bib-1属性集(二) • 完整属性(Completeness attributes),说明字段的完整性,如整个字段,定义的属性为incomplete subfield, complete field等; • 位置属性(Position attributes),字段中数据被查询的位置,如第一个字段、任意的位置,定义的属性为First in field, any position in field等; • 字段结构属性(Structure attributes),如该字段是一词组、词或人名等,定义的属性为phrase, word, normalized等。
Profile(框架) • Z39.50 协议是一个大而全的标准规范,任何一个系统都不可能将其完全的实现,仅仅 • 是根据实际的需求实现了标准的一部分而已,所以为了提高不同Z39.50 系统间的互操作性 • 以及为用户选择不同的系统提供一个参考,Z39.50 协议提出了Profile 的概念。在Profile 中 • 描述不同系统所具体实现的Z39.50 协议细则,Profile 需根据系统所支持的应用领域、功能、 • 服务团体或应用环境来确定。当前得到Z39.50 协议认可的Profile 有以下几种: • 1. GILS —应用于政府信息资源服务领域; • 2. WAIS —应用于WAIS(Wide Area Information Servers)网络信息发布系统; • 3. ATS-1 —使用作者(Author)、题名(Title)和主题(Subject)作为基本查询方式 • 实现对书目数据库的信息查询; • 4. Bath--主要描述的是Z39.50在图书馆范围类的有效使用。
Bath Profile(框架) • Bath Profile是1999年在英国Bath各国专家讨论达成一致意见形成的,全称为The Bath Profile:An International Z39.50 Specification for Library Applications and Resource Discovery[4],它主要描述的是Z39.50在图书馆范围类的有效使用,从三个方面定义操作互联规范: • 检索书目数据:定义了要求支持的检索点、浏览与获取数据的类型。 • 检索馆藏数据:馆藏数据的检索与获取数据类型的定义。 • 跨库检索:实现不用数据类型的统一检索。
ZING(Z3950 International:Next Generation) • ZING主要是随着网络相关技术(如:Web Service、XML、SOAP等)的发展而提出的对Z39.50协议的另一种实现模式。 • ZING定义了 • 简单的WEB查询/获取协议(SRW/SRU) • 实现模型(ZOOM) • 检索语言(CQL) • 对Z39.50系统提供基于SOAP的转化(ez3950) • 如何检索Z资源和获取Z资源的详细信息(ZeeRex)
Z39.50/ZING • SRW/SRU:SRW(Search/Retrieve for the Web)和SRU(Search/Retrieve URL Service) • CQL:Common Query Language通用查询语言 • ZOOM:Z39.50 Object-Orientation Model Z39.50面向对象模型 • ez3950:Simple Implementation of Z39.50 over SOAP using XML Encoding Rule (XER) • ZeeRex
ZING与Z39.50对比 • SRW/SRU:服务定义 • ZOOM: Z39.50服务机制 • CQL: Type-1(RPN) • ZeeRex :数据库列表 • XER:转换ASN.1为XML • SRU: 基于HTTP的GET模式(APDU)
OAI协议目标 • OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting) • 提供了一个基于元数据获取的独立于具体应用的互操作框架 • 该协议的主要目标是: • 简化数字资源内容的传播和获取方式; • 提高数字资源的存取效率; • 扩展可获得的数字资源的种类范围。
OAI协议目标 • 存在两个级别的参与者: • 数据提供者(OAI-DP):以OAI-PMH方式发布元数据 • 服务提供者(OAI-SP):以OAI-PMH方式从OAI-DP获取元数据来建立自己的增值服务
OAI相关概念 • 收割器(Harvester) • 仓储(Repository) • 条目(Item) • 唯一标识符(Unique Identifier) • 记录(Record) • 删除的记录(Deleted Records) • 集合(Set) • 选择性收割(Selective Harvesting)
收割器与仓储 • 收割器Harvester • 是发送OAI-PMH请求并接收响应的客户端程序,是OAI-SP的一部分。 • Harvester被SP用作从元数据仓储收集元数据的方式。 • 仓储Repository • 是一个网络中可访问的服务器, • 能处理6种OAI-PMH协议中规定的请求。 • 仓储由OAI-DP管理维护,向harvester暴露元数据。
条目Item • Item是repository的有机成分,关于资源的元数据就来源于此。 • Item概念上是一个容器,贮存或动态生成关于单一资源的各种格式的元数据。 • 每一种元数据都可以通过OAI-PMH协议收割。 • 每个Item在repository中都有个唯一的identifier。
唯一标识符identifier • unique identifier用于唯一标识repository中的item • unique identifier用于从item中提取元数据 • Unique identifiers的两个角色 • Response: identifier在ListIdentifiers和ListRecords对应的响应中返回。 • Request: identifier与metadataPrefix的组合在GetRecord请求中用来从item中得到特定格式的元数据。
记录Record • Record是单一元数据格式表达的元数据 • 一条record由以下字段的组合唯一标识 • 该条记录出自的item的unique identifier • 标识记录元数据格式的metadataPrefix • 记录的datestamp(时间戳) • 用XML编码的Record由以下几部分组成 • header: 包含item的unique identifier和针对选择性收割的必要性质 • metadata: 一个条目item的单一表现形式。OAI-PMH协议支持有多种表示形式(元数据格式)的条目 • about –:可选的可重复的容器元素,保存与record有关的其他信息
记录Record的组成 • XML编码的记录由以下几部分组成
删除的记录(deleted) • 如果一条记录不再有用,就称之为被删除了deleted • 仓储必须支持3种删除机制之一 • no :仓储不维护关于记录删除的信息 • persistent :仓储无限期地维护关于记录删除的信息 • transient :仓储不保证无限期地维护关于记录删除的信息
集合set • set 是用于选择性收割一组条目。可选 • 仓储可以组织平面的sets,也可以组织分层的sets。按不同的多层次组织set时,允许有多个独立的顶层结点 • 当一个仓储支持sets时,它就应该在对ListIdentifiers,ListRecords和GetRecord的响应中包含set的成员信息
选择性收割 • Selective harvesting允许收割器把来自仓储的元数据限制到一个部分 • OAI-PMH协议支持两种类型的选择性收割标准(可以同时使用) • datestamp • set从属关系 • 对于datastamp类型,可以使用可选的参数from和until限定收割范围 • 时间值要转换为世界统一时间,即零时区的时间。
OAI-PMH命令动词 • Identify • ListSets • ListMetadataFormats • GetRecord • ListRecords • ListIdentifiers
ORE • 对象重用和交换Object Reuse and Exchange • 2006年10月提出,计划2008年9月完成 • 梅隆基金会和NSF共同资助
与OAI-PMH的关系 • ORE并非OAI-PMH的替代 • OAI-PMH以元数据为核心,ORE以对象(资源)为核心