380 likes | 641 Views
在浏览和检索界面设计中 利用知识组织系统 (KOS). 一 . 从第一代到第四代界面 二 . 在实际工作中利用 KOS 原理和方法. 曾蕾 2006 年数字图书馆前沿问题高级研讨班 清华大学,北京. 什么是知识组织系统. “ 知识组织系统” (knowledge organization systems, 简称 KOS) 是我们用来定义并组织表述真实世界物体的术语和符号的系统, 在具体应用中我们往往将它们泛指为 语义工具 。 大型数据库中使用的众多的叙词表 检索引擎内部使用的分类表、自动扩检词表 网站导航浏览用的等级体系结构
E N D
在浏览和检索界面设计中利用知识组织系统(KOS)在浏览和检索界面设计中利用知识组织系统(KOS) 一. 从第一代到第四代界面 二. 在实际工作中利用KOS原理和方法 曾蕾 2006年数字图书馆前沿问题高级研讨班 清华大学,北京
什么是知识组织系统 • “知识组织系统”(knowledge organization systems, 简称KOS) 是我们用来定义并组织表述真实世界物体的术语和符号的系统, • 在具体应用中我们往往将它们泛指为语义工具。 • 大型数据库中使用的众多的叙词表 • 检索引擎内部使用的分类表、自动扩检词表 • 网站导航浏览用的等级体系结构 • 新一代万维网—语义网的实用分类系统(又称本体) • 。。。
关联组织Relationship Groups Ontologies 实用分类法Semantic networks语义网络 Concept maps 概念地图Thesauri 叙词表 Strongly-structured强结构 分类与大致归类Classification &Categorization: Classification schemes (图书)分类法Taxonomies 知识分类表Categorization schemes 大致归类类表 Subject Headings 标题表 Synonym Rings 同义词环Authority Files 权威文档Glossaries/Dictionaries 词汇/字典Gazetteers 地名表 词单term lists Weakly-structured弱结构 Pick lists 可选词单 Natural language 自然语言 Controlled language 受控语言 知识组织系统 (KOS) 一览
KOS 的基本原理和方法 不论KOS是以什么形式出现,其基本方法都是相同的,不同的是采用这些方法的程度和范围 • 词义消歧 即对同形异义、一词多义、词义含糊的词的控制 • 对同义词和近义词的控制 • 对概念之间关系进行显示 • 等级关系+其他相关关系 • 表达概念之间关系以及概念的属性特征
一. 从第一代到第四代界面 第一代检索界面: 查寻 1996年 AltaVista 网站 1997年12月 NorthernLight
第二代: 查寻+浏览 1996年10月的雅虎 最早采用分类的方法提供浏览服务
1997年1月Yahoo! 1998年12月 AltaVista 到98年几乎所有检索网站都加上了分类浏览
很多由图书馆建立的主题指南和虚拟图书馆都采用分类浏览的方式很多由图书馆建立的主题指南和虚拟图书馆都采用分类浏览的方式 2006年7月访问
第三代: 分面、 多维 1)分面的思路 • 物体、部件、过程、时间、空间、体裁、载体 … 2)多维的检索、浏览、开拓 • 同时提供多种浏览和开拓的可能途径,随机应用,不是给用户只有一个框架、一条道路 3)以作品、物件为核心 • 让部门划分、体裁划分、语种划分退居二线,不要打扰读者, FRBR的原则的体现 4)显示信息,而不是显示数据结构 • 不要将图书馆内部工作中使用的数据格式和字段强加给用户 • 结构化的数据是在后台支持检索用的,应让他们在用户面前消失
例1:英国文化遗产数字图书馆的图像资源查找例1:英国文化遗产数字图书馆的图像资源查找 ViewFinder, image resource for England's history 物体 组成部分 时间 空间 http://viewfinder.english-heritage.org.uk/search/advanced.asp
例2: 纽约公共图书馆数字画廊 多种途径 充分利用元数据记录中的内容 大类
例3:史密森尼博物院 “有线历史” History Wired: A few of our favorite things.” http://historywired.si.edu/ 时间 主题 有关此物件的基本信息 大类 在有限的第一空间内,从多种角度充分展示典藏的内容
例4:Perseus 人文科学数字图书馆 9 million pages/month A Digital Library for the Humanities http://www.perseus.tufts.edu/
电子馆藏包括: 经典 · 古代写在纸莎草纸上的文稿 · 文艺复新 · 伦敦 · 加州 · 上中西部 · 莎士比亚 · 波义耳作品· Tufts历史 地点 文献类型 年代 语言统计 从元数据中挖掘信息,一条数据多种读法,多种探索开发的方向
第4代:加入属性特征 • 事物、概念不仅有分类,还有属性特征 • 概念类型 • 概念关系类型 • 概念的属性特征
例1:文化遗产术语的分面查找途径FACET语义提问扩充和匹配例1:文化遗产术语的分面查找途径FACET语义提问扩充和匹配 不同颜色代表不同类型的概念: 物体、材料、属性、时间、空间等等 FACET - Faceted Access to Cultural hEritage Terminology http://www.comp.glam.ac.uk/~FACET/webdemo/
二. 在实际工作中利用KOS原理和方法 在分面结构中采用可选词单(pick list) 从分众分类法(folksonomy)中采集词汇 在检索引擎中引进同义词环 (synonym rings)方法 等级结构大有用武之地 用词表 (thesaurus) 帮助用户建立检索提问、控制检索范围 概念地图(concept map)的使用 实用分类系统(ontology)与实际知识信息库的有机结合 多种KOS原理和方法的综合利用
1. 在分面结构中采用可选词单 (pick list) 可选词单(pick list)
2. 从分众分类法(folksonomy)中采集词汇 分众分类法(Folksonomy)是由Folks和Taxonomy组合而来, 指“群众”自发性定义的平面非等级标签分类。有“分众分类法”,“通俗分类法”,“大众分类法”,“民众分类法”等不同翻译 • 特点: • 这种分类法是由个人自发性定义。 • 标签分类是公开共享的,可以被所有人看到。 • 这种分类法是由用户群体定义的频率来决定。 Source: 维基百科 Source: Bearman and Trant, 2005
del.icio.us/ 书签分享网站 益处:收集到相关性很高的词,从这些词入口可以找到更多的相关网站 问题:同义词、近义词、词形规范等,例如global warming 和global-warming 两者带出的内容不一样,只用一个词,可能漏掉一些好的内容。
宾西法尼亚大学图书馆 PennTags书签活动 http://tags.library.upenn.edu/
astronaut spaceman cosmonaut taikonaut spationaut 3. 在检索引擎中引进同义词环 (synonym rings)方法 • 通常与检索引擎一起使用,帮助扩充检索式 • 用户只要使用了同义词环中的任何一个词,就可以找到这一类的资源。 • 打“电话“ -- “电话”、”手机”、“传呼”、“大哥大”、“小灵通” • 喝“咖啡” -- “滴滤咖啡”、“美式咖啡”、“浓缩咖啡”、“拿铁咖啡”、“卡布奇诺”、“摩卡咖啡”等 • 看“星星” -- “恒星”、“行星”、“星座”、“星云”、“银河”等 • 交叉概念,如“医药”和“药品”,“树林”和“森林 • 还有很多简写词,外语名称,专用词等 • 从原理上讲,同义词环中所包含的语词是从检索目的来看等价的词.
同义词环与众不同之处 • 不强行要求环中某一个词被当作“正式词”,在同义词环中每一个词都可以是正式词。 • 同义词环可以一组一组词逐步建立,可以只给整个词汇中的10%或20%的词建立同义词环,视需要而定,量力而行,分期行动。 • 可随著检索环境的变化和网站内容的变化而随时增加新的同义词环。 • 投资小、效益高、实用性强。
4. 等级结构大有用武之地 等级结构与生动的表现形式的结合 层层分类的等级体系,每个图像带有元数据
采用KOS分类体系以联合使用分散的主题导航站 Renardus 采用杜威分类法的体系结构将北欧各大主题导航站联结起来 http://www.renardus.org/
匹配结果可能有不同程度,完全匹配、下位类匹配、小部分匹配,等等匹配结果可能有不同程度,完全匹配、下位类匹配、小部分匹配,等等
5. 用词表 (thesaurus) 帮助用户建立检索提问、控制检索范围 英国文化遗产图示叙词表 Source:ADLIB English Heritage Illustrated Thesaurus
亚历山大数字图书馆电子地名辞典– 在查询界面提供叙词表以便控制检索范围
6. 概念地图的使用 概念及其关系 人机认知研究所的软件下载网页http://cmap.ihmc.us/
UMLS Semantic Network 135 Semantic Types (link) and 54 Semantic Relation Types (link)
7. 实用分类系统(ontology)与实际知识信息库的有机结合 基因实用分类法 The Gene Ontology 种类 The Gene Ontology -- http://www.geneontology.org/
KOS结构化模型谱 一维 二维 三维+ Term Lists 词单 Classification Categorization分类、归类 Relationship Groups 相关组织 Thesauri 叙词表 concept maps 概念地图semantic networks 语义网络ontologies 实用分类法
KOS--〉NKOS--〉Semantic Tools向强结构的语义系统发展 网络下的KOS (NKOS)和新一代的语义工具的特点: • 吸取不同知识组织系统的特长,集中起来优化使用 • 等级结构与元数据式的“特征”的结合 • Taxonomy + metadata (or attribute-value pairs) • Ontology for knowledge based systems • KOS、元数据与专用置标语言 (domain-specific markup languages)的结合使用 • 多个知识组织系统结构在学习科学概念中的结合使用 (e.g., ADEPT KB) • 对计算机可理解性的强调 –-多种编码(encoding)系统的应用 • 可视化(visualization)与传统形式的结合使用
总结 • 知识组织系统(KOS)在标引、浏览、检索中的作用是不容忽视的 • 多种KOS原理可以结合使用,提高检索效率 • 应该在更多过程中考虑自动处理 • 网络环境下的KOS(NKOS)正在从机器识别走向机器理解,所以KOS的编码(encoding)已经成为KOS的一个不可忽略的部分 • 在我们的网络时代迈向下一代互联网--语义网(Semantic Web)的进程中,KOS的发展和应用再一次走向高潮