330 likes | 549 Views
DC 元数据进展. 刘炜. 上图 DL 活动. 1997 年启动古籍数字化 1999 年大规模数字化( 7 个资源库) 2000 年 IBM DL v.2.4 内容管理 数字图书馆及元数据跟踪研究 数字化 - 资源整合 - 服务整合 2004-? 上海年华 /Library Anywhere. 关于 DC. DC 是都柏林核心元数据( Dublin Core Metadata )的简称 由 OCLC 于 1994 年开始倡导并提供经费支持 是目前最具影响的元数据形式,已成为或正在成为 ISO/IEC 、 CEN 、 NISO 等国际、国家的正式标准
E N D
DC元数据进展 刘炜
上图DL活动 • 1997年启动古籍数字化 • 1999年大规模数字化(7个资源库) • 2000年IBM DL v.2.4内容管理 • 数字图书馆及元数据跟踪研究 • 数字化-资源整合-服务整合 • 2004-? 上海年华/Library Anywhere
关于DC • DC是都柏林核心元数据(Dublin Core Metadata)的简称 • 由OCLC于1994年开始倡导并提供经费支持 • 是目前最具影响的元数据形式,已成为或正在成为ISO/IEC、CEN、NISO等国际、国家的正式标准 • 其维护机构为DCMI(Dublin Core Metadata Initiative)
Dublin Core Factoids • 9 workshops in 7 countries on 4 continents • 1000 attendees • 30 languages • 7 governments • Museums, libraries, government agencies, supra-national agencies, commerce, e-publishing, archives…. • Cross disciplinary discovery of information resources using the Internet From: Stuart Weibel presentation on DC2002
OCLC Board of Trustees Advisory Board Directorate Usage Board Working Groups Interest Groups DCMI的组成和运作 • DCMI是致力于DC推广应用和标准化的组织 • DCMI的组成: 有关应用方案、文档的批准、发布 自由动议 制定Charter、年度计划,有方案、报告、固定的人员和资助
Board of Trustees Executive Director Directorate Managing Director Advisory Board Usage Board WGs WGs WGs Standards Development Infrastructure DCMI Subscribers DCMI Activity Areas User Support and Education Liaison 6 DCMI Organizational Structure From: Stuart Weibel presentation on DC2002
Branding • The three ‘I’s • International focus and reach国际化 • Independent initiative独立运动 • Influenceable (openness)持续的影响力 From: Makx Dekkers presentation on DC2002
Audience change • Initially: a group of inspired pioneers, eager to participate and contribute • Now: a large group of people who want to know ‘How-to-do-it’, ‘How to integrate in business processes’ • Needs: • Timely, stable and dependable documents and specifications • Community support From: Makx Dekkers’ presentation on DC2002
进展 • Application Profile的使用规范 • Abstract Model的提出 • Metadata Registry
DC Metadata Abstract ModelDC元数据抽象模型 • 为什么要有这个抽象模型? • 什么是DC元数据抽象模型? • DC元数据抽象模型包含哪些内容? • 如何应用该抽象模型?
Why • 明确了一些长期争论或容易模糊的概念: • 数据模型:DC描述的对象:资源Resource; • 描述的结构及资源、属性、值的关系; • 信息模型:DC描述的基本单位:一条描述Description • DC限定的约束等 • (在一套概念术语的基础之上)提供一个抽象的数据模型(概念的坐标参照系),以便在不同的元数据方案(如果都采用或宣称采用基于DC的方案或者AP)之间获得共同的理解; • 独立于特定的编码语法,约束和补充置标方案的不足; • 深入理解编码对象的属性,实现元素的映射、翻译和转换,从而实现元数据方案的共享和重用; • 在语义层实现元数据应用系统(数字图书馆)的互操作
DC元数据的描述对象:资源 的抽象模型 • 每个资源(resource)具有零个或多个属性(properties); • 每个属性(property)具有一个或多个值(values); • 每个值(value) 本身是一个资源(resource)(即:用来描述资源,与属性相关的物理或概念实体。); • 每个资源(resource)可以是一个或多个类(classes)中的成员;(注:作为属性值的资源所在的类(class)常被称为编码体系词表(vocabulary encoding scheme)); • 每个属性(property)和类(class)均具有其被声明的语义; • 每个类(class)通过限定(子类)关系与一个或多个其它类相关(当两个类共享部分语义(semantics)时,所有属于子类(sub-class)的资源(resource)同时也是另一个相关类(class)的成员; • 每个属性只能与一个其它属性通过限定关系(子属性)相关(当两种属性共享部分语义时,子属性的的有效值也就是相关属性的有效值)。
DC元数据描述的抽象模型 • 一个条描述(description)是由一个或多个陈述(statements)(该陈述仅与一个且唯一一个资源有关),以及零个或一个资源的URI组成(URI用来标识所描述的资源); • 每个陈述由一个属性URI(这里的URI用于标识一个属性),零个或一个值URI(这里的URI用于标识属性的值),零个或一个编码体系URI(这里的URI标识值的类),零个或多个值的表述(representations)组成; • 每个属性都是被描述资源的一项特性; • 每个属性URI可以在多个陈述中重复; • 值的表述(value representation)可以是字串值(value string)、复合值(rich value)或相关描述(related description)等形式; • 每个字串值都是一个简单的、人类可读的字符串,用以表示属性的值; • 每个字串值可以有相应的编码体系URI( encoding scheme URI),用来标识一个语法编码体系; • 每个字串值可以有相应的字串语种(value string language),它是一个ISO语种标记(例如,en-GB); • 每个复合值(rich value)是一些标记文本、图像、视频、音频等,或者它们的组合,表示作为属性值的资源; • 每条相关资源描述都是一个用来描述属性值的资源。
DC元数据描述的抽象模型 • 一条“相关描述”描述一个相关的资源,因此并非是“描述”的一部分,例如,当一个人是所描述资源的创建者时,一条相关描述可以提供关于这个“人”的元数据。 • 在某些语境(Context)中,语法编码体系也可以认为是某种“数据类型” • 在DCMI元数据描述中,所描述资源的类通常由DC类型(DC Type)属性的值来描述。
“记录”与“值” • 一条DCMI元数据记录是一条或多条描述的集合,这些描述是关于一个或多个相关资源的,这些资源根据某个DCMI置标指南实例化(这些置标指南有:XHTML meta tags, XML, RDF/XML, 等等) • 一个DCMI元数据值是物理的或者概念的实体,当描述一个资源时,这个实体就成为该资源的属性。
简单DC和限定DC • 简单DC记录: • 遵从抽象模型 • 仅由一条描述组成 • 仅使用DC元数据元素集[DCMES]中的15个属性 • 不使用URI值,编码体系,复合值或相关描述 • 限定DC记录: • 遵从DCMI抽象模型 • 至少包含一个来自于DCMI元数据术语推荐表[DCTERMS]中的属性
向上兼容(Dump Down)原则 • 并且在任何情况下,向上兼容算法都应该: • 忽略任何相关描述和复合值 • 忽略任何编码体系URI
如何应用 • 应用于元数据方案的制定 • 抽象模型提供了应用纲要的基础 • 建立资源模型 • 确立资源对象 • 选取元素 • 确定置标方案 • 确定记录组织形式和相互关系
Metadata Application Profile元数据应用纲要 • 什么是元数据应用纲要? • 为什么要提出元数据应用纲要? • 元数据应用纲要的具体内容是什么? • 除了DCMI,还有哪些元数据标准维护机构支持元数据应用纲要? • 如何应用元数据应用纲要?
来源 • 作为一种元数据方案(metadata schema)的形式被引入; • 对于应用不同元数据标准的内容和方法进行一定程度的规范; • 思想来自于Warwick Framework:不同元素可以集成在一个包中描述一个资源;
为什么要用AP • 元数据方案重用 • 标准化 • 互操作 • 简便易行
内容 • 欧洲标准见:CEN CWA14855 • 定义所要描述的资源属性,并采用ER分析方法明确所要描述的资源对象; • 声明元素语义及可能存在相互关系、相关规则等,这些元素可以来自多个不同的元数据标准规范(不同命名域); • 声明元素限定或修饰。元素的语义可以根据所引用的元数据标准规范进行某种程度的限定,但是不能扩大或交叉; • 可以规定元素的编码规则; • 可以规定元素的值的约束; • 可以规定其他约束:是否必选、可重复、取值范围、数据类型等等 • 如果需要增加“新”的元素,必须自己建立命名域并维护这些新的元素组成的元数据方案; • 编码规则(制定置标方案)(机读); • 编写有关应用文档(人读) 参见:http://www.ariadne.ac.uk/issue25/app-profiles/ http://www.cultivate-int.org/issue3/schemas/
为什么要用命名域 • 推荐采用具有命名域的元数据规范有如下考虑,命名域提供了一种机制,能够: • 标识元数据元素的管理机构,具有一定的权威性(某种意义上的权威控制); • 支持元素的原有语义定义; • 保证元素概念的“唯一性” 以及与相关概念的关系。
制定AP的过程 各有不同,但共性如下: • 根据资源类型和系统开发需要,定义元数据及数据元素需求 • 选择现有的最合适的元数据标准规范(元数据元素集) • 复用标准的元素,根据目标系统的需要赋予特定的语义(仅缩小语义,不扩大、改变),制订著录规则并考虑应用规范词表 • 扩展元素/限定并进行定义,赋予本地的命名域进行管理
支持抽象模型的元数据机构 • DCMI • DC-Lib • DC-Ed • MARC • DOI • IEEE/LOM
AP的问题 • 不同元数据元素的一致性问题; • 元数据标准更新的同步问题; • 编码体系等修饰词的维护、更新问题; • 应用纲要的标准化问题 • 完全的形式化是否有可能?
元数据注册体系 • 什么是元数据注册系统? • 为什么要注册? • 目前有哪些注册系统? • DC注册系统的现状和功能 • 相关标准:ISO11179
什么是元数据注册系统 • 元数据注册系统(又叫登记系统,Metadata Registry MR )是对元数据的定义信息、置标方案、转换规则、著录规则、应用指南等规范进行发布登记管理和检索的系统; • 支持Internet环境中元数据规范的发现、识别、调用以及在此基础上的元数据转换挖掘和复用
需要注册系统的原因 • 提供开放的管理机制 • 元数据方案重用 • 标准化 • 支持Semantic Web Service架构 • DC注册系统的具体需求: • 规范词典; • 提供元数据模式Schema; • 提供各类元数据标准的映射方案; • 提供元数据方案的翻译
目前的注册系统 • DCMI Open Metadata Registry • ROADS Metadata Registry • DESIRE Metadata Registry • GERMAN METADATA REGISTRY • CSDL 元数据登记政策与登记系统(建设中) • UDDI
注册系统当前发展简评 • 人工系统为主 • 人工登录 • “以人为本”的功能设定(查询/浏览); • 静态服务为主,通常涉及元素和方案两个层次,对命名域中的元素进行一定的分类,具有对元素、置标方案和各类其它文档的浏览、查询和链接功能; • 元素与各类元数据应用相关文档登记,供一定范围内(例如课题组或一个系统)的重用和参考
历届DC会议 • 1 1995 Dublin, Ohio, USA OCLC (The very beginning:12elements) • 2 1996 Warwick, UK UKOLN (Warwick Framework:15elements) • 3 1996 Dublin, Ohio, USA OCLC • 4 1997 Canberra, Australia National Library of Australia (Qualifiers) • 5 1997 Helsinki, Finland National Library of Finland (Finish Simp.DC) • 6 1998 Washington DC, USA Library of Congress (Dumb-down) • 7 1999 Frankfurt, Germany Die Deutsche Bibliothek (DCMI Sustainability) • 8 2000 Ottawa, Canada National Library of Canada (Application Posters and Demos) • 9 2001 Tokyo, Japan National Institute of Informatics (DC2001: 1st Intl. Conf. of DC) • 10 2002 Florence, Italy Biblioteca Nazionale Centrale Firenze • 11 2003 Seattle, Washington, USA Washington Univ. • 12 2004 Shanghai, China, Shanghai Library
DC2004 • Oct.11-14 (Monday-Thurday), 2004 • 100 foreign specialists, 150 domestic attendees • 10 Full Papers, 23 Short Papers • Keynotes: Prof. Zhang Xiaolin, Eric Miller, ?Sumir Meghani (From Yahoo!) • 8:30-10:00 Tutorial • 10:30-12:00 Plenary Session • Afternoon: Paper Session/Workshop/Special Session • Pre-conference and Post sessions