1 / 31

网络数据存档的存在问题

网络数据存档的存在问题. B.Kahle 2000.3 原始出处: http://www.vala.org.au/hans0602.ppt. bluerye ( DXY )译. 网络数据存档的存在问题. “ 网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”( JISC 2002.4 ) “许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。” (Brewster Kahle 2002.3). 网络存档的存在问题. 澳大利亚 美国 北欧国家:丹麦 芬兰 瑞典 其他国家:英国 法国 日本

grietje
Download Presentation

网络数据存档的存在问题

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 网络数据存档的存在问题 B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt bluerye(DXY)译

  2. 网络数据存档的存在问题 • “网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”(JISC 2002.4) • “许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。”(Brewster Kahle 2002.3)

  3. 网络存档的存在问题 • 澳大利亚 • 美国 • 北欧国家:丹麦 芬兰 瑞典 • 其他国家:英国 法国 日本 • 国际网络数据的存档库 例如:“wayback Machine”

  4. 三个会议 • 数据储存图书馆的未来 达姆施塔特[德国] 2001.9 • 国际数据网络存档大会 东京 2002.1 • DPC论坛:网络数据存档 伦敦 2002.3

  5. 会议网站 • http://www.bnf.fr/pages/infopro/dliECDL2001.htm • http://www.ndl.go.jp/enews/sympoeng.html • http://www.jisc.ac.uk/dner/preservation/webforum.html

  6. 存在问题 • 储存数字化信息的合法性? • 版权? • 是否允许访问和对公众开放? • 选择一部分还是全部储存? • 多长时间更新介质?何时更新? • 如何在多变的网络中获得信息?

  7. 技术上面临的挑战 • 嵌入的外部链接和可执行程序 • 不变的名称和数据标识 • 复制控制 • 内容随时间的变化 • 表层网页和深层网页

  8. 澳大利亚(潘多拉档案库) • NLA:http://www.nla.gov.au/pandora • 仍没有合法地位 • 储存公有的出版物 • 选择性储存 ( 澳大利亚电子刊物,组织化站点, 政府出版物,短期资源) • 允许公众访问 -NDB条款

  9. 澳大利亚(潘多拉档案库) • ~1700个标题(2001.11) 增长率:每月40站点 重新整理:每月35站点 • ADRI(澳大利亚数字资源确认) 独特的确认方法 自身处理系统

  10. 美国(雅典娜议档案库)-议会图书馆 • 将互联网资源制图,可视化档案库 • 可通过网页访问资源 • 版权的合法性正在论证阶段 • 选择性收录 • 对公众公开

  11. LC/IA 领航计划-“Election 2000” • 将网上和议会资源库共享 • 目标: 图书馆:选择收集和分类站点;建造原型访问站点 网络档案库:在整理和归档站点的过程中学习经验 • 800多个站点(在这些站点中包括150多个选择后的站点和主要) • 数据量有2-3万亿字节 • 每日归档(2000.8~2001.1)

  12. 丹麦 • 皇家图书馆,哥本哈根 • 出版物的储存有一定法律权限 非动态的静态出版物-有限的站点 • 只允许皇家图书馆,国立图书馆和大学图书馆访问 • 只归档静态站点(专论和过刊) • 奥尔胡斯会在每天夜里为国立和大学图书馆提供镜像站点

  13. 丹麦(统计数字) • 9000 网络出版物 (2001.6) -31%为专论,69%为过刊 -67.5%来自公共部门和图书馆,32.5%来自私立部门 • 工作人员中有0.5是技术人员,0.8是图书管理员

  14. 瑞典皇家图书馆 • 每年若干次对本国站点进行扫描 -不选择,收录一切 -包括所有网页,所有电子刊物,所有新闻 -包括.se-,.com,.org,.net在内的所有使用瑞典地址和电话号码的网站。 -只归档但不允许访问。

  15. 瑞典 软件 • 使用Whois软件鉴定本国的站点 • 使用COMBINE Robot软件收录站点 -自动从超链接中收集文章 -同时收录图片和声音文件 -全自动化无需人为帮助

  16. 瑞典档案库(Kulturarw3) • http://www.kb.se/kw3 • 所有资源都作为一个多部分的MIME一个元数据储存在一个文件里面 • 文件命名:33个字符以及记录时间 • 截至到2001.9:从97000个网络服务器中活得110,000,000文件,总计3000G字节的数据量 • 储存在磁盘和碟片中,用分等储存管理(HSM)管理文件

  17. 瑞典档案库(Kulturarw3) • 直到2002.7,只有部分法定权限(一些固定的网络文件) • 2001.12,数据核查联合会的确认计划被认为违法。于是改计划被叫停了。 • 2002.7,修改后的瑞典版权法,给予了瑞典皇家图书馆以收集本国网站和公开档案库的合法地位

  18. 芬兰 国际图书馆 • 使用了和瑞典类似的方案,最初只是负责本国范围之内。 • 具有收集数据资源的合法性和版权 • 使用芬兰的来自NEDLIB的软件收集数据。 • 档案元数据 • 使用MD5校验和的方法控制复制,这种方法较为权威而且具有唯一的认证码 • 配合时间标识作为一种挽救措施

  19. 芬兰-现行的数据收集情况 • 2001-2002年度的数据采集 -始于2001.8止于2002.4 -从29,000,000个URL中收集了9,400,000个文件 -压缩后的文件总计340G字节 -储存在国际超级计算中心提供的介质上 -硬件:SunE450服务器

  20. 芬兰-现行的数据收集情况 • 项目的经验:“NEDLIB数据收集系统可以除了任何网络空间(美国除外),配合完备的硬件,提供了足够的储存空间” (Juha Haleka,“Finish Team”项目的主持人)

  21. 北欧网络档案库 • 北欧国际图书馆联合计划 • 不取决于数据是用哪个软件收集的 -NEDLIB(芬兰 挪威 丹麦) -COMBINE(瑞典) • 选择挪威的搜索引擎(FAST) • 软件: -从100种不同MIME转换称HTML格式 -识别大部分欧洲语言 • 预算:260,000欧元(AUS$ 475,000)

  22. 相同的网页(表层)

  23. 英国 • 英国图书馆 -“Domain.uk” 计划(始于2002) • 选择了100个英国站点 • 给备选的站点发现以活得批准 • 每3个星期重新访问 • 使用“Bluesquirrel Web whacker”软件 • 定期检查链接、变化和丢失 -有意图提高规模(2004 竞标)

  24. 英国 • UKOLN 研究计划 -“uk.domain”估计大小应该有3,000,000个站点,24,000,000左右的网页。 • Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。 -医学网站 -2002.3提供咨询,2002.10 完成数据 -2002.8 初步报告,最后报告会散布在整体里。

  25. 德国 • 档案库(德国藏书) -收集目标资料的经验 -两次不完全的快速扫描(2000.12,2000.2)

  26. 法国 • 档案库(法国藏书) • 2001:进行了两次小规模尝试,收集了16,000左右的音乐、视频等多媒体站点。 -结果并不是令人满意 • 一些非预期的特点 • 过大的站点 -正计划用两种不同的机器进行一次新的更为可行的研究。 -2001.6修改了允许储存的法律,但是扔未获得国会通过。

  27. 日本 • 国家议会图书馆 • WARP(Web Archiving Program) • 初步是实行选择性获得数据 • 日本版权法有了一些大的变化,有可能获准进行一些更加深入的数据收集工作。

  28. 国际档案库 • 1996年由Brewster Kahle以卖出WAIS获得的15,000,000美元建立国际档案库。 • 非营利组织 -发起者包括:AT&T实验室,Compaq,Xerox PARC,Quantum DLT,国家科学基金 1996年后开始归档网页,包括1903-1973的电影资料

  29. 国际档案库 • 每两个月完全扫描一次 • 机器排除,一些新闻、个人、照片。 • 完全拷贝了亚历山大港的档案库 • 在不同的洲复制。“复制是最好的保存方法” • 版权?“也许这严重的侵害了合法的版权” (Lawrence Lessig,斯坦福的IP法和互联网空间专家)

  30. 国际档案库(“wayback machine”) • http://www.archive.org • 以收集和归档国际互联网公共网页为目标 • 包括大部分的图像数据 • 2001.10发部 • 对公众完全开放 • 每天2万用户,每秒200人 • 不提供文本搜索,只由URL搜索 • 资金支持情况?-未知

  31. 结论 • “我们在这里不是为了触探法律。我们要创造一个我们想要生活的世界。一个没有图书馆的世界就是一个没有记忆的世界,这是将是一场悲剧。”(B.Kahle,2001.10) • “在互联网上,谁都可以成为一个出版者,现在我们这个图书馆就可以做这样的事情。” (B.Kahle,2002.5)

More Related