1 / 102

第九讲 数字图书馆技术

第九讲 数字图书馆技术. 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org. 内容提要. 数字图书馆的发展历史 数字图书馆的概念 数字图书馆的系统结构 数据描述和文档模型 内容检索和信息服务 典型数字图书馆计划和原型系统介绍. Memex. 1945 年 7 月,美国 《Atlantic Monthly》 期刊发表了 VannevarBush 的文章 “ As we may think ” ,文中提出一种机械化文件和图书馆方案 Memex ,其中信息存储在缩微胶卷上

Download Presentation

第九讲 数字图书馆技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第九讲 数字图书馆技术 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org

  2. 内容提要 • 数字图书馆的发展历史 • 数字图书馆的概念 • 数字图书馆的系统结构 • 数据描述和文档模型 • 内容检索和信息服务 • 典型数字图书馆计划和原型系统介绍

  3. Memex • 1945年7月,美国《Atlantic Monthly》期刊发表了VannevarBush的文章“As we may think”,文中提出一种机械化文件和图书馆方案Memex,其中信息存储在缩微胶卷上 • Memex也是现代计算机信息检索的先驱 • Memex中也第一次提出了超链接的思想 数字图书馆的发展历史

  4. Vannevar Bush • 美国总统顾问,二战后给总统提交《Science, the Endless Frontier》报告,提出科研和教育相结合,极大地提高美国的科技实力。 • 有人称之为计算机之父,Internet之父 • 对美国科技的发展起到巨大贡献,并影响了好几代人 数字图书馆的发展历史

  5. MIT的Intrex • 基于计算机的缩微胶卷的索引方法 • Intrex数据库中的2万篇科学文章存储在缩微胶片上,支持联机目录访问和索引。这些缩微胶片存储在自动检索装置中,它位于联机计算机设备旁 数字图书馆的发展历史

  6. OBAR & LITE • 早期数字图书馆概念出现在20世纪60年代,人们开始以全文存储的格式,对文件进行索引 • OBAR(OhioBar Automated Research)提供对法律资料的联机访问功能 • LITE(LegalInformation Through Electronics)对法律文件索引 • 这些早期的文本存储和检索技术都是针对特定文档和格式,以专用编程方法实现,不便普及推广 数字图书馆的发展历史

  7. IBM STAIRS • 20世纪70年代出现了通用的基于计算机的信息存储、索引和检索程序 • IBM的STAIRS(StorageAnd Information Retrieval System)原来是为大型机设计,后来被数以百计的图书馆采用,用于图书馆流通管理 数字图书馆的发展历史

  8. 图书馆信息管理系统 • 计算机技术的发展促使图书馆管理也在计算机化,出现图书馆信息管理系统 • 典型的图书馆信息管理系统具有采编管理、编目管理、流通典藏管理、期刊管理和公共检索的功能,能够对图书馆的日常工作进行计算机管理,也逐步提供远程的书目检索 数字图书馆的发展历史

  9. 两种对存档资料检索的形式 • 形式一 • 搜索远程的电子数据库,称为远程数据库检索系统 • 形式二 • 搜索图书馆内部的资料目录,称为联机公共访问目录OPAC(OnlinePublic Access Catalogs)系统 • 两者的主要区别在三个方面 • 系统开发的起源 • 文件和数据库的内容 • 面对的用户 数字图书馆的发展历史

  10. 两个系统的主要区别 数字图书馆的发展历史

  11. 现代数字图书馆 • 原来的系统主要考虑文本信息,远远不能满足现代数字化信息的膨胀和用户的需求 • 1991年美国计算机学会和国家科学基金会NSF联合支持的计算机科学文献的数字图书馆原型系统Envision,强调可用性、高度结构化和高度集成性 • 1994年,美国国会图书馆宣布国家数字图书馆NDL计划 • 1994年,美国NSF、NASA、DARPA联合启动了数字图书馆预研计划DLI,支持六所大学的数字图书馆研究。目前计划进入到第二阶段DLI-2 • 现代数字图书馆的目标已经是无所不包,远远超过了传统的图书馆概念 数字图书馆的发展历史

  12. 我国数字图书馆建设 • 1996年7月~1999年12月,我国由北京图书馆、中山图书馆、上海图书馆、深圳图书馆、辽宁图书馆、南京图书馆、文化部文化科技开发中心共同承担实施了“中国试验型数字图书馆(CPDLP)项目” • 1998年10月,文化部与国家图书馆启动了中国国家数字图书馆工程,该工程由“中国数字图书馆有限责任公司”负责,标志着中国数字图书馆工程进入实质性操作阶段 • 1999年初,国家图书馆完成“数字图书馆试验演示系统”的开发 • 2001年5月23日,国家重点科技项目“中国试验型数字式图书馆”通过专家技术鉴定 数字图书馆的发展历史

  13. 数字图书馆不仅仅是数字化的图书馆 • 数字化是当前不少图书馆工程中的一项重要内容 • 虽然数字图书馆的概念没有统一,数字图书馆还在发展。但是,数字图书馆概念绝不仅仅是数字资源的集合 • 现代数字图书馆概念包罗万象,不同背景、角度看到的数字图书馆不尽一致 数字图书馆的概念

  14. 定义: • 定义1 • 数字图书馆是提供资源的组织机构,它选择、结构化、注释、分发、完整保藏数字资源,并提供知识访问服务,以便资源容易地和经济地被用户和团体使用。 • 定义2 • 数字图书馆是一种图书馆,它以计算机可存取的形式保藏所有的或部分的馆藏资料,这些数字资料是对常规印刷和缩微胶片资料的补充,或可供选择的资料。 • 定义3 • 数字图书馆是电子资源及其技术能力的集合,这些技术包括信息的产生、搜索和利用等方面。 数字图书馆的概念

  15. 上述定义的共性 • 数字图书馆应该具有数字资源集 • 它按照一定的规范建立 • 并能够通过计算机网络访问和检索 • 各种类型的资源可以放入资源集中,包括经过数字化的以前收录的资源和仅仅以数字形式保存的资源 数字图书馆的概念

  16. 几个视角 • 从资源种类看 • 数字图书馆可以看成是分布式多媒体信息系统 • 从分布角度看 • 数字图书馆可以看成是联邦结构信息库 • 从信息检索角度看 • 可以看成是大规模多媒体多语言分布式异构信息检索系统 数字图书馆的系统结构

  17. 传统的图书馆信息分发过程 • 串行多环节链,出版周期长,资源的承载介质是纸,资源利用率低。 数字图书馆的系统结构

  18. 电子方式的图书馆信息分发过程 • 仍然是串行多环节,出版周期仍然较长,但是用户利用资源的效率大大提高。缺乏对多媒体数据的足够支持,服务功能有限,图书馆之间的练习较弱,没有充分发挥检索的作用。审阅者作者出版商图书馆(文档数据库)(索引服务器)读者撰写审阅电子出版 数字图书馆的系统结构

  19. 数字图书馆的全分布系统结构 • 全分布,协同作业,大大减少中间环节,提供全面的高质量服务 数字图书馆的系统结构

  20. 元数据 • 数据的描述称为元数据(Metadata) • 微观上看,元数据仅仅指的是对数据对象的描述 • 宏观上看,元数据可以描述文档,而且可以描述文档集和整个数字图书馆,以及它们的服务 • 机读目录MARC,可以采用SGML表示,或者转化为更简单的数据模式,如元数据标准Dublin Core 数据描述和文档模型

  21. 文档类型和表示 • 多语种文档 • 不同语种、不同编码的文档 • 采用Unicode编码是一种解决方法 • 多媒体文档 • 多媒体对象的存取 • 结构化文档 • XML表示 数据描述和文档模型

  22. 联邦搜索(Federated Search) • 也称为跨库搜索、元搜索、集成搜索、平行搜索等 • 利用多个相对独立的不同搜索系统搜索同一目标 • 是数字图书馆中解决分布信息库搜索的一种方案 • 联邦搜索涉及资源收集、智能搜索、结果融合等问题 内容检索和信息服务

  23. 存取管理 • 知识产权的管理及有价服务的费用支付办法,可以通过技术手段加上政策手段来实现 • 存取过程中的安全问题,可以通过存取控制、加密等方法实现 内容检索和信息服务

  24. 标准及Z39.50 • 数字图书馆系统之间的通信协议标准 • 资源表示和互操作的标准 • Z39.50是计算机之间进行数据库检索与查询的通信协议 内容检索和信息服务

  25. DLI(DigitalLibraries Initiative) • 第一阶段,1994-1998 • UIUC/UC-B/UCSB/CMU/Stanford/Michigan等大学承担了6个大型的项目,投入2400万美元 典型数字图书馆计划和原型系统介绍

  26. DLI-2 • 1999~今 • DLI中6个项目4个继续研究,并投资了17个新项目 • DLI-2把注意力放在信息生命周期的全过程上,从内容的产生、存取和使用,到维护、存档,把数字图书馆建成以人为中心的信息系统 典型数字图书馆计划和原型系统介绍

  27. 企业电脑 和服务器 40多亿的移动电话一2010年 [数据来源: Nokia] 个人电脑和 笔记本电脑 PDA 云计算定义 • 云计算(Cloud Computing ):是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。是指基于互联网的超级计算模式--即把存储于个人电脑、移动电话和其他设备上的大量信息和处理器资源集中在一起,协同工作。在极大规模上可扩展的信息技术能力向外部客户作为服务来提供的一种计算方式。

  28. PC C/S 云计算 云计算综述 • 数据在云端:不怕丢失,不必备份,可以任意点的恢复 ; • 软件在云端:不必下载自动升级 ; • 无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务; • 无限强大的计算:具有无限空间的,无限速度。 服务为中心 软件为中心 硬件为中心

  29. 云计算的出现 IT 消费者 IT 分析师 Ability to elastically scale resources and maintain high quality of service Ability to elastically scale resources at significantly lower incremental management cost Common Attributes of Clouds Enhanced user experience Elastic scaling Automated provisioning Highly virtualized 终端用户 财务分析师 Anywhere access to applications through a simplified user interface Rapid time to market for new services. Anywhere access to applications through a simplified user interface Source: IBM Corporate Strategy analysis of MI, PR, AR and VCG compilations

  30. 基本概念 • 狭义上的云计算是指用虚拟技术构建的虚拟化数据中心,将分布在大量的计算机和存储设备(包括本地或远程设备)上的计算和存储资源(包括内存、I/O设备、存储、带宽、计算能力等)集中起来成为一个虚拟的资源池,以服务方式按需(免费或租用)提供给网络用户 • 这种云计算被称为“基础设施即服务”IaaS(Infrastructure as a Service,也被称为“硬件即服务”HaaS,Hardware as a Service)的模式。Amazon的E2和E3是这类模式的代表

  31. 基本概念 • 广义上的云计算还包括软件即服务SaaS(Softwre as a Service)、平台即服务PaaS(Platform as a Service)等多种服务模式。SaaS通过浏览器把程序以服务方式交付给用户,向用户收取服务费 • 用户通过互联网使用程序,降低在服务器和软件的购买及系统运维成本;供应商只需统一安装和维护一套软硬件系统,如Salesforce.com等。很多SaaS还提供了开放API,让开发者能够开发更多的互联网应用。PaaS将把开发环境、应用程序运行环境、数据库环境等作为一种服务来提供给开发商,由后者开发程序并通过互联网提供给用户 • 这类服务商有Google的应用软件引擎Google AppEngine和Salesforce的网络应用软件平台force.com等 • 图情界一般引用其广义概念

  32. 云计算的形式 • 云计算的内涵非常丰富。云计算形式包括: • 以服务为交付模式的计算和存储基础设施; • 包括虚拟主机租用、应用服务环境租用、数据库环境租用、编程模型、数据服务(Data as a Service)、商业流程服务(Process as a Service)、应用服务(Application as a Service)等各种模式 • 云计算的特性 • 对资源动态分配;以Web为中心;交付的是服务

  33. 云计算六种服务方式 • SAAS( Software as a Service) • PAAS( Platform as a Service) • IAAS( Infrastructure as a Service) • 云存储 • MSP(管理服务提供) • 商业服务平台

  34. 例如, Google 和Microsoft 都拥有Web网的拷贝,以方便进行对全球Web的索引 目前… Computers aregreat tools for huge amountsof data

  35. Computers will stillbe great tools for huge amountsof data 计算机将自动对 全球信息 将来…

  36. MS Live/ExchangeLabs, IBM, Google Apps; Salesforce.com Quicken Online, Zoho, Cisco 应用服务 (SaaS)‏ Google App Engine, Mosso, Force.com, Engine Yard, Facebook, Heroku, AWS 应用平台 3Tera, EC2, SliceHost, GoGrid, RightScale, Linode 服务平台 存储平台 Amazon S3, Dell, Apple, ... 云计算业界现状

  37. 云服务示例- Amazon • 云计算服务领跑者亚马逊继续保持领先的位置 • Simple Queue Service(简单排列服务) • Simple Storage Service(即S3,简单的存储服务 • Amazon Elastic Compute Cloud(弹性计算云,EC2、EBS ) • Amazon Flexible Payments Service • Amazon SimpleDB • Amazon DevPay

  38. Amazon S3简单存储服务 • Object-Based Storage • 1 B – 5 GB / object • Fast, Reliable, Scalable • Redundant, Dispersed • 99.99% Availability Goal • Private or Public • Per-object URLs & ACLs • US & European Locations(目前只对欧美服务)

  39. 云服务示例- Google • GoogleApps - 2007年 • AppEngine服务平台-2008年4月 • 开发者可借助谷歌的AppEngine开发新的WEB应用 • Google推出了Chrome浏览器 - 2008年9月 • 一是技术开源,二是对Google AppEngine运行速度快,针对性强 • Gmail运行Google多个IDC • Google云计算已经拥有100多万台服务器

  40. Google云计算数据中心

  41. Google-云能提高处理速度 • 云计算模式中,用户所需的应用程序并不运行在用户的个人电脑、手机等终端上,而是运行在互联网上大规模的服务集群中 • 谷歌处理1TB数据只需68秒;1PB六个小时 • Google只需68秒钟就能完成对1TB数据的排序处理。这些数据都是未压缩的文本文件,使用Google File System文件系统存储在1000台计算机上。在此之前,Google处理分布于910台计算机上的等量数据需要耗时209秒 • 数据量不只是TB级别,还能为一千倍的PB级别 • 在今年1月份的时候,Google MapReduce平均每天的数据处理量是20PB,相当于美国国会图书馆2010年5月份存档网络数据的240倍

  42. Web Application Service Collaboration Services DatacenterInfrastructure Compute Service Database service Cloud Computing Job Scheduling Service Service Catalog Storage service Storage backup, archive… service Virtual Client service Content Classification 云服务示例 - IBM

  43. 服务创建与部署 服务请求 IT 基础设施 & 应用提供 Service Planning Orchestration of Technology, Processes, People & Data to fulfill end-user requests and operational tasks Tivoli Process Automation Architecture End User Requests & Operators Request a Server Service Definition Tools Service Management • Visualize • Control • Automate • Data Center Model • Reservations Simple Deployment – Automated Provisioning Deployment Integrated with Security, Availability and Performance Management Service Publishing Tools Request an Application • Complex Service Requirements Deployment Integrated withProcess (e.g. ITIL, procurement) Service Fulfillment & Configuration Tools UI, Fulfillment, Data, MetaData Request Server + Application Guided by Management Policy • Assets, Configuration Items … Platform Management Services Usage & Accounting Services Technology Provisioning Services Monitoring Services Service Catalog Request UI Operational UI Service Monitoring Tools KPIs Security Services Energy Management Services Infrastructure & Virtualization IBM云服务管理示意图

  44. Store and Share File sharing service for uploading, storing and sharing of files Contacts Keep track of your contacts. Share Contact information Instant messaging among “Bluehouse” users Chat Your personal meeting room for Web meetings Meetings Collaborate on projects, share files, Bookmarks and comments Business Forms Activities Ability to create Business Forms Visualize data through charts, graphs etc. Live Charts IBM的 “Bluehouse” • 面向企业推出的云服务—融合 Web 2.0 的协同服务 • Enables collaboration beyond the boundaries of an organization • Provides the essential software to help teams of people work together • Connect from anywhere, anytime • Focus on business, rather than worry about IT IBM and Partner Confidential

  45. 云服务示例 - Microsoft • 2008年10月份,微软相继发布了一系列产品,以迎接“云计算”时代的到来 • 推出了新操作系统Azure,企业用户既可以在公司电脑上运行,也可以经由微软通过互联网提供相同服务;将以“即用即付”模式对Azure定价; • 新推出的Windows Live可以让个人用户与好友一起存储、恢复和共享图片、博客和其它网站内容 • 推出企业级Exchange电邮的网络版和Office网络版

  46. 云带来的变化 • 最重要的产业变化体现在5个方面 • 第一,信息产业从PC 时代走向互联网时代,而产业也将从PC时代的应用为中心走向以数据为中心,谁拥有最多、最智能、最结构化、最相关的数据,谁就拥有优势 • 第二个变化体现在,PC功能和定义将发生很大改变,虽然PC仍是重要的工具,但PC将走向PC+:个人计算能力进入手机、电视、汽车、传感器等,只要有电的地方都有计算的时代 • 第三个变化是,计算的架构从过去集中于PC或服务器的某一“端”走向“云”+“端”,即"C+C"(Cloud+Client) • 第四个变化是,软件企业的业务模式从软件走向了“软件+服务” • 第五个变化是,市场的基础将从过去几十年来服务了第一个10亿人(1B)走向服务更多用户 • “云计算”已经能够把PC上好的应用放到手机、电视等终端设备上,让发展中国家的用户先体验到“云计算”带来的服务。

  47. 数字图书馆环境下用户需求是什么 • 检索文献 • 跟踪最新进展 • 文献资源的使用、管理 • 下载文献资源的组织、保存与再检索 • 阅读 • 笔记、报告、论文、实验数据、图表 • 起草、保存、版本、…… • 学术交流 • 讨论、咨询、会议、……

  48. 服务开始渗透到活动全过程、全方位 网络出版(Apabi) 机构知识库(Dspace,Eprints) 企业需求与技术转移 学术论坛 科研数据采集与分析 项目管理(Project、Jira) 文献管理(noteexpress,endnotes、refworks) 文献资源查找 项目申请助手 信息检索与搜索引擎 交流通讯(微软、北电的统一沟通平台) 需求调研 成果共享与推广 科研实施 面向科研学术活动的信息服务

  49. 数字图书馆与读者的关系 • 数字图书馆为用户提供一个学习与研究的平台 • 海量文献资源 • 专业的、个性化的服务 • 学习与研究的工具 • 决策参考工具 • 本地化信息化服务

  50. 数字图书馆的云模式需求 • 包括两个方面:云构建和云提供 • 基本服务 • 硬件及应用托管 • 提供计算服务和存储服务 • 资源整合 • 高级服务 • 链接整合,统一检索 • 数字资源调度服务 • 用户行为分析、资源访问统计及分析 • 读者的观点、评价挖掘 • 用户不管资源在哪,是哪个数据库,希望最快、最直接的方式,得到他所希望的文献格式

More Related