250 likes | 440 Views
DC ( 都柏林核心集 ) 元数据. 1995 年 3 月,由 OCLC 与 国家超级计算应用中心( NCSA )联合发起, 52 位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何 用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。 至今已开过九次研讨会。 在美国 OHIO 州的 Dublin 召开,因此得名。. DC 的起因:网络资源的整理和检索. 网络资源逐渐成为信息资源的主流 馆藏资源(有序) 网络资源(有序和无序)
E N D
DC (都柏林核心集)元数据 • 1995年3月,由OCLC与国家超级计算应用中心(NCSA)联合发起,52位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。 • 至今已开过九次研讨会。 • 在美国OHIO州的Dublin召开,因此得名。
DC的起因:网络资源的整理和检索 • 网络资源逐渐成为信息资源的主流 • 馆藏资源(有序) • 网络资源(有序和无序) • 急需对网络资源进行有效的管理和检索 使网络资源和馆藏资源一样成为有序的资源
Dublin Core • 十五个基本元素 • 简单清晰的语义定义 • 应用面广 • 易于伸缩与扩展 • TYPE(Subelement),SCHEME,LANGUAGE 三种形式 • 因特网标准(RFC2413)、国际标准 • 广泛的支持与应用
DC历史 DC-1: Dublin • 目标: • 简单性 (是创建者能够自愿提供) • 语义互操作性 (在不同学科、领域间共享元数据格式) • 跨语种,达成国际性共识 (全球范围的资源共享) • 灵活性 (表达能力和适应性) • 强调重点: • 资源揭示 • 类文档对象 (DLO's) • 忽略知识产权保护、存档状态、语法等因素
DC历史 DC-2: Warwick • 开始讨论语法问题 • 提出一套可扩展框架体系,解决metadata is far too diverse to fit into one useful taxonomy.(元数据太过多样性难以在一套体系中使用)的问题; • 每个群体都想创建、开发、维护自己的元数据框架体系,但必须能够互操作; • Warwick 框架解决: • 一套方案不可能满足所有需要 • “容器-包结构”的集合组成元数据包 • 模块(modular)允许不同类型的元数据对象同时存在 • 扩展性允许产生新的元数据类型 • 分布性允许外部元数据对象进行“参见” • 递归性支持元数据的元数据对象存在
DC历史 DC-3: Dublin • 考察图像库元数据方案 • 添加“描述(Description)” 和 “权限(Rights)“两个属性元素 • 改变一些元数据的名称以使其更具有普遍性 • 在类文件对象和图像文件两类元数据之间找到了许多明显的共性
DC历史 DC-4: Canberra堪培拉 • 最小语义/结构学派的产生和分裂 • 增加“堪培拉限定词”
DC历史 最小语义学派与结构学派之争 • 提供一系列元数据用于资源揭示 • 不提供: (全文索引) 便宜, 易于建立和维护, 低效率, 不精确 • 非字段方式 : (关键词) • 最少字段: (标签与值相对应) • 限定方式: (层次结构标签对应属性值) • 复杂结构方式: (任意增加复杂的元数据对象) 成本昂贵, 难以建立和维护, 高效率,精确 • 最小语义学派: 简单性和互操作性最重要;结构学派:适用性和精确性最重要。
DC历史 堪培拉限定词 • 有结构学派提出建议,进一步修饰15个元数据元素 • SCHEME(体系), 即采用中图法、科图法或主题词表等; • 语种, 属性值的著录语种 • 子元素, 即 Date.created, Date.acquired, Date.valid, ...等
DC历史 DC-5: Helsinki(赫尔辛基) • 芬兰终结(Finnish Finish): 对15个DC元素进行限定 • 建立子元素工作小组subelements working group • 开始向正是数据模型如(W3C, RDF)等靠拢 • 开始走上标准化过程
DC历史 • 建立了DC的HTML/XML/RDF置标标准 • 非限定版DC通过了多个国家的国家标准(包括美国z39.85); • 使得HTML 4.0在META元素之下加入了SCHEME 和 LANG 两个标签; • 开始了ISO国际标准进程;
DC的原则 • 元素必须易于理解和使用,以便网络资源的创建者可以无须培训描述其作品; • 每个元素都是可重复和可省略的; • 每个元素在应用领域和范围方面应该是跨学科和国际性的; • 元素集应该可扩展,以满足专门学科或专题的应用需要; • 必须能够应用于各种标记语言中,特别是因特网上流行的各类语言。
DC(都柏林核心集) • 内在本质原则(Intrinsicality) • 可扩展性原则(Extensibility) • 可选择性原则(Optionality) • 可重复性原则(Repeatability) • 可修饰性原则(Modifiability)
内在本质原则(Intrinsicality) • 只描述与文件内容和实体相关的特性 主题、责任者等属于作品的内在本质,但收费和存取方式属于作品的外在特性,原则上不属于核心资料项
可扩展性原则(Extensibility) • 允许资料以地区性规范出现 • 保持元数据日后扩充的特性
可选择性原则(Optionality) 最低限度DC元素推荐表 题名(Title) 标识符(Identifier) 出版者(Publisher) 日期(Date) 款式(Format) 主题 (Subject) 类型(Type) 回目录
可重复性原则(Repeatability) • 所有项目都是可重复的
可修饰性原则(Modifiability) • 可用修饰词进一步修饰其意义 • 为了丰富都柏林核心集的内涵并扩大其应用范围,在DC第四次研讨会中,确立了“堪培拉修饰词”,正式吸纳了3种修饰词:语言修饰词(Lang)、架构修饰词(Scheme)、子元素修饰词(Subelement)
DC元数据元素集 • 非限定版(unqualified)15个元素 • 限定版(qualified) 44个修饰词 • 特殊领域的应用 • 应用模式 • 官方站点:http://purl.org/dc
内容属性 知识产权属性 形式属性 题名Title 创建者Creator 日期Date 主题Subject 出版者Publisher 类型Type 说明Description 其他责任者Contributor 形式Format 来源Source 权限Rights 标识Identifier 语种Language 关联Relation 覆盖范围Coverage 非限定版DC元素(简单DC) • 见 RFC 2413 中文版见http://www.istis.sh.cn/istis/dlib/report/dcsummary.htm • DC 1.1
DC限定版 • 为什么要限定? • 三类限定:限定(Refinement)、编码体系(Scheme)和语种 • 44个修饰词(前两类限定) 中文版见:http://www.istis.sh.cn/istis/dlib/report/DCQ.htm
DC限定举例 • 利用 ‘type’限定元素的语义 • Relation TYPE=IsPartOf • 利用 ‘scheme’规定外部资源取值 • Subject SCHEME=LCSH • Date SCHEME=ISO 8601 • 利用 ‘language’ 限定语言 • Title LANGUAGE=en
DC应用情况 • 国际标准 • 国家标准 • 澳大利亚 • 芬兰 • 丹麦 • 英国 • 美国:z39.85-200x • IETF(Internet Engineering Task Force) RFC2413 • OeB • 翻译成33种语言
什么是CORC数据库? • 合作联机资源目录(Cooperative Online Resource Catalog) • 基于DC(都柏林核心元数据集)规范 • 现有23万条(包含电子期刊、电子产品、网页等各种电子信息的)元数据记录。图书馆通过该数据库,可以创建和维护MARC格式和元数据格式(包括HTML和RDF)的记录 • 从2000年7月1日起正式商业化运作
中国的元数据研究项目 • 北京大学图书馆(拓片和敦煌古卷)(中文) • 清华大学(建筑)(中文) • 中山图书馆“数字式中文全文文献通用格式” • 中国可持续发展信息共享示范系统(包括中国21世纪议程管理中心、国家科委国家计委国家经贸委自然灾害综合研究组、中国科学院地理研究所、国家环保总局南京环境科学研究所、中国地质科学院、国家海洋信息中心、中国科学院植物研究所等) (中文与英文)