520 likes | 638 Views
面向 21 世纪课程教材 数字图书馆原理及应用. 技术篇 ( 二 ). 赵亮 上海图书馆系统网络中心 lzhao@libnet.sh.cn. 内容. 第六章:数字图书馆信息存储与检索技术( p153-188 ) 第七章:数字图书馆的互操作( p188-226 ). 重点. 掌握: 数据压缩技术原理、方法,文本压缩、多媒体压缩; p162-167 跨语言检索的实现方法; p179-185 数字图书馆异构对象数据库互操作技术; p195-197 Z39.50 协议及 Z39.83 协议其原理、模式、应用; p210 熟悉: 多媒体信息检索; p170-178
E N D
面向21世纪课程教材 数字图书馆原理及应用 技术篇 (二) 赵亮 上海图书馆系统网络中心 lzhao@libnet.sh.cn
内容 • 第六章:数字图书馆信息存储与检索技术(p153-188) • 第七章:数字图书馆的互操作(p188-226)
重点 • 掌握: • 数据压缩技术原理、方法,文本压缩、多媒体压缩;p162-167 • 跨语言检索的实现方法;p179-185 • 数字图书馆异构对象数据库互操作技术;p195-197 • Z39.50协议及Z39.83协议其原理、模式、应用;p210 • 熟悉: • 多媒体信息检索;p170-178 • 互操作产生的原因;p190-191
重点 • 了解: • 存储设备、存储技术和架构、数据备份技术、数据压缩;p153,p162 • 基于内容的信息检索技术;跨语言检索;p170, p178 • 数字图书馆的互操作及其协议和标准;p189
数字图书馆的存储设备(p.153-155) • 磁盘阵列 (RAID) • 磁带库 • 光盘塔 • 光盘库 • 光盘网络镜像服务器
存储技术和架构(p.155-158) • 直接连接存储 (DAS) • 网络连接存储 (NAS) • 存储区域网 (SAN)
类型 项目 DAS NAS SAN 1.软件安装 一般 简单 复杂 2.文件共享 差 好 很好 3.存储操作系统 非独立 独立 4.存储数据方式 分散 集中 5.系统管理 复杂 简单,不易扩展 简单,更易扩展 6.扩充性 差 好 很好 7.传输效率,占用带宽 多 多 少 8.备份与数据恢复 备份恢复麻烦 备份恢复方便 备份恢复集中管理,好 9.总拥有成本 高 较低 低 10.应用环境 适应地理上分布的环境 适应分布式异构环境 适应海量存储 三种存储架构的比较分析
数据备份技术 • 本地备份 • DAS • 网络备份 • NAS • 基于SAN的LAN-FREE的备份 • SAN
数据压缩的定义与内容p.162 • 物理空间──降低存储费用 • 时间空间──迅速传输媒体信源 • 频率空间──并行开通更多业务
数据压缩技术实现的衡量标准p.163 • 压缩比要大 • 恢复后的失真小 • 速度要快,压缩算法简单 • 硬件开销小
数据压缩技术原理、方法 p.163-164 无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。 有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。 混合压缩是指接近于无损压缩效果的有损压缩。
文本压缩技术 p.164-167 • 霍夫曼(Huffman)编码 • 算术编码 • 字典压缩模型 • LZW编码 • 游程编码
霍夫曼编码实例, step I • Assume that relative frequencies are: • A: 40 • B: 20 • C: 10 • D: 10 • R: 20 • (I chose simpler numbers than the real frequencies) • Smallest number are 10 and 10 (C and D), so connect those
霍夫曼编码实例, step II • C and D have already been used, and the new node above them (call it C+D) has value 20 • The smallest values are B, C+D, and R, all of which have value 20 • Connect any two of these
霍夫曼编码实例, step III • The smallest values is R, while A and B+C+D all have value 40 • Connect R to either of the others
霍夫曼编码实例, step IV • Connect the final two nodes
Assign 0 to left branches, 1 to right branches Each encoding is a path from the root A = 0B = 100C = 1010D = 1011R = 11 Each path terminates at a leaf Do you see why encoded strings are decodable? 霍夫曼编码实例, step V
霍夫曼编码,Unique prefix property • A = 0B = 100C = 1010D = 1011R = 11 • No bit string is a prefix of any other bit string • For example, if we addedE=01, then A (0) would be a prefix of E • Similarly, if we added F=10, then it would be a prefix of three other encodings (B=100, C=1010, and D=1011) • The unique prefix property holds because, in a binary tree, a leaf is not on a path to any other node
算术编码p.165 • 基本思想:算术编码不是将单个信源符号映射成一个码字,而是把真个信源表示为实数线上的0到1之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。 • 采用算术编码每个符号的平均编码长度可以为小数。
词典编码 • 词典编码主要利用数据本身包含许多重复的字符串的特性。例如:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮。 我们如果用一些简单的代号代替这些字符串,就可以实现压缩,实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。 • 实用的词典编码算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。
词典编码举例 • 词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。
LZW编码 • 得名于Lempel – Ziv - Welch。 • 是一种动态生成字典并编码的字典压缩模型。 • 具有压缩效率高、实现简单的优点,是目前最常用的无损压缩方法之一。
前缀S = 空串 C = 从输入流中读一个字符 是 是结尾标志吗? 是 输出 S 的编码 输出结束标记 S+C在字典中吗? 输出 S 的编码 S = S+C 把新串S+C加到字典中 S = C LZW编码算法流程 初始化字典
要编码字串: abcdabababcd LZW编码实例
游程编码(RLE) • 游程编码(Run-Length Encoding):它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。 • 例如:RTTTTTTTTABBCDG被转换为:R#8TABBCDG,其中“#”作为转义字符,表明其后所跟的字符表示长度。 • 行程编码多用于黑白二值图像的压缩中。例如00000000111111111111000001111111被转化为一系列黑串和白串长度的编码:81257。因为串长度并非等概率分布,所以一般要配合以统计编码(Huffman编码)。
多媒体压缩技术 p.167-170 • 静止图像压缩标准 JPEG • 无损及有损 • 在20-40倍压缩比时,人眼看不出区别 • 活动图像压缩标准 MPEG • MPEG-1 • 352X240,VCD • MPEG-2 • 720X480,DVD • MPEG-4
基于内容的信息检索技术p.170-178 • 图像信息检索 • 颜色 • 形状 • 纹理 形状 色彩组合 平均颜色 纹理 图像检索
基于内容的信息检索技术p.170-178 • 动态视频信息检索 • 视频分割 • 视频聚类 • 关键帧抽取 • 运动特性抽取 • 视频检索
基于内容的信息检索技术p.170-178 • 音频信息检索 • 音频的类型 • 波形声音 • 语音 • 音乐 • 语音检索 • 音乐检索 • 结构化音乐的检索 • 基于样本的音乐检索
跨语言信息检索技术p.178-188 • 跨语言信息检索的定义 • 跨语言信息检索是指用户以一种语言提问,检索出另一种语言或多种语言描述的相关信息。 • 计算机信息检索技术 • 机器翻译技术
跨语言信息检索技术p.178-188 • 跨语言信息检索的实现方法 • 提问式翻译法 • 基于词典的方法 • 基于语料库的方法 • 混合方法 • 文献翻译法 • 提问式-文献翻译法 • 中间翻译法 • 不翻译法 • 提问词构造法 • 专有名词音译法
跨语言信息检索的技术重点 • 翻译所需语言资源的研究 • 翻译歧义性的消解 • 词典方法 • 语料库方法 • 交互性系统
数字图书馆中数字资源的互操作 • US IEEE的定义 • 互操作性是指两个或多个系统相互使用已被交换的信息的能力. • 互操作还包括信息资源的存储、组织、检索、表示、系统间的通信、系统管理、用户管理及知识产权等问题 • P.189-190
数字图书馆互操作问题产生的原因 • 数字信息资源的组织和结构问题 • 信息资源数字化中文件的命名问题 • 元数据问题 • 信息资源数字加工格式问题 • 体系结构方面的问题 • 系统构架问题 p.190-191
实现互操作的协议和标准 • Z39.50 • OAI • 基于XML的元数据互操作 • Dienst协议 • Emerge协议 P.191-195
数字图书馆异构对象数据库互操作的几种技术 • CORBA-公共对象请求代理体系结构 • 中间件技术 • DOM/DCOM p.195-197
资源仓库 OAI命令 服务提供者 数据提供者 Data Provider Data Provider Data Provider Data Provider 请求 资源仓库 记录 资源仓库 用户 回复 OAI示意圖
Z39.50信息检索协议 • 信息检索协议 • ANSI/NISO Z39.50 • ISO 23950 • 客户机/服务器架构, 基于连接进程的(Z连接) • Z39.50 维护管理机构 – 美国国会图书馆 • http://lcweb.loc.gov/z3950/agency/ • Z39.50的服务和机制 • 11种机制与相应服务、服务类型、启动方
Client/origin Server/target • Z39.50 是客户机、服务器模式 • 但称之为源端( Origin)与目的端(Target)
Z39.50协议过程 • 11种机制 p.213-216 • 初始化机制 • 搜索机制 • 提取机制 • 删除结果集机制 • 浏览机制 • 排序机制 • 访问控制机制 • 记帐/资源控制机制 • 解释机制 • 扩展服务机制 • 终止机制
基本Z39.50操作示例(最重要的三种服务) Origin Target Initialization Operation Init request Init response Search Operation Search request Search response Present Operation Present request Present response
Z39.50协议应用模式p.220-223 • 单层客户机服务器模式 • 多层客户机服务器模式 • 广播式查询模式
Z39.83协议 p.223 • Z39.83是由美国国家信息标准组织(NISO)制定的有关馆际互借的一种新协议,于2002年正式推出。简称NCIP.(NISO Circulation Interchange Protocol) • 两个部分组成 • 第一部分定义了一系列的消息和相关的语法、句法规则 • 第二部分详细第一部分的应用细则。用于支持直接联机借阅、流通/馆际互借事务、自助服务流通这三大应用领域。其次也可以用于诸如电子文献资源管理等新出现的领域。
Z39.50 Item Order p.224 • Z39.50 Item Order 是基于Z39.50 扩展服务机制来进行文献借阅的一种扩展协议。
Z39.83协议与Z39.50 Item Order的比较 p.225 • Z39.83协议支持以下四种馆际互借模式 • 传统的馆际互借 • ISO-ILL馆际互借 • NCIP Link • 直接运送 • Z39.83协议与Z39.50 Item Order相比有如下特点: • 有着非常灵活的选项 • 通过设置典型需求自助服务项目,提高了图书馆员工的工作效率,降低了运行费用 • 通过多个运送者,可以将用户所需要的书籍直接送到家中 • 查询界面可以向用户提供各种查询