310 likes | 471 Views
网络数据存档的存在问题. B.Kahle 2000.3 原始出处: http://www.vala.org.au/hans0602.ppt. bluerye ( DXY )译. 网络数据存档的存在问题. “ 网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”( JISC 2002.4 ) “许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。” (Brewster Kahle 2002.3). 网络存档的存在问题. 澳大利亚 美国 北欧国家:丹麦 芬兰 瑞典 其他国家:英国 法国 日本
E N D
网络数据存档的存在问题 B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt bluerye(DXY)译
网络数据存档的存在问题 • “网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”(JISC 2002.4) • “许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。”(Brewster Kahle 2002.3)
网络存档的存在问题 • 澳大利亚 • 美国 • 北欧国家:丹麦 芬兰 瑞典 • 其他国家:英国 法国 日本 • 国际网络数据的存档库 例如:“wayback Machine”
三个会议 • 数据储存图书馆的未来 达姆施塔特[德国] 2001.9 • 国际数据网络存档大会 东京 2002.1 • DPC论坛:网络数据存档 伦敦 2002.3
会议网站 • http://www.bnf.fr/pages/infopro/dliECDL2001.htm • http://www.ndl.go.jp/enews/sympoeng.html • http://www.jisc.ac.uk/dner/preservation/webforum.html
存在问题 • 储存数字化信息的合法性? • 版权? • 是否允许访问和对公众开放? • 选择一部分还是全部储存? • 多长时间更新介质?何时更新? • 如何在多变的网络中获得信息?
技术上面临的挑战 • 嵌入的外部链接和可执行程序 • 不变的名称和数据标识 • 复制控制 • 内容随时间的变化 • 表层网页和深层网页
澳大利亚(潘多拉档案库) • NLA:http://www.nla.gov.au/pandora • 仍没有合法地位 • 储存公有的出版物 • 选择性储存 ( 澳大利亚电子刊物,组织化站点, 政府出版物,短期资源) • 允许公众访问 -NDB条款
澳大利亚(潘多拉档案库) • ~1700个标题(2001.11) 增长率:每月40站点 重新整理:每月35站点 • ADRI(澳大利亚数字资源确认) 独特的确认方法 自身处理系统
美国(雅典娜议档案库)-议会图书馆 • 将互联网资源制图,可视化档案库 • 可通过网页访问资源 • 版权的合法性正在论证阶段 • 选择性收录 • 对公众公开
LC/IA 领航计划-“Election 2000” • 将网上和议会资源库共享 • 目标: 图书馆:选择收集和分类站点;建造原型访问站点 网络档案库:在整理和归档站点的过程中学习经验 • 800多个站点(在这些站点中包括150多个选择后的站点和主要) • 数据量有2-3万亿字节 • 每日归档(2000.8~2001.1)
丹麦 • 皇家图书馆,哥本哈根 • 出版物的储存有一定法律权限 非动态的静态出版物-有限的站点 • 只允许皇家图书馆,国立图书馆和大学图书馆访问 • 只归档静态站点(专论和过刊) • 奥尔胡斯会在每天夜里为国立和大学图书馆提供镜像站点
丹麦(统计数字) • 9000 网络出版物 (2001.6) -31%为专论,69%为过刊 -67.5%来自公共部门和图书馆,32.5%来自私立部门 • 工作人员中有0.5是技术人员,0.8是图书管理员
瑞典皇家图书馆 • 每年若干次对本国站点进行扫描 -不选择,收录一切 -包括所有网页,所有电子刊物,所有新闻 -包括.se-,.com,.org,.net在内的所有使用瑞典地址和电话号码的网站。 -只归档但不允许访问。
瑞典 软件 • 使用Whois软件鉴定本国的站点 • 使用COMBINE Robot软件收录站点 -自动从超链接中收集文章 -同时收录图片和声音文件 -全自动化无需人为帮助
瑞典档案库(Kulturarw3) • http://www.kb.se/kw3 • 所有资源都作为一个多部分的MIME一个元数据储存在一个文件里面 • 文件命名:33个字符以及记录时间 • 截至到2001.9:从97000个网络服务器中活得110,000,000文件,总计3000G字节的数据量 • 储存在磁盘和碟片中,用分等储存管理(HSM)管理文件
瑞典档案库(Kulturarw3) • 直到2002.7,只有部分法定权限(一些固定的网络文件) • 2001.12,数据核查联合会的确认计划被认为违法。于是改计划被叫停了。 • 2002.7,修改后的瑞典版权法,给予了瑞典皇家图书馆以收集本国网站和公开档案库的合法地位
芬兰 国际图书馆 • 使用了和瑞典类似的方案,最初只是负责本国范围之内。 • 具有收集数据资源的合法性和版权 • 使用芬兰的来自NEDLIB的软件收集数据。 • 档案元数据 • 使用MD5校验和的方法控制复制,这种方法较为权威而且具有唯一的认证码 • 配合时间标识作为一种挽救措施
芬兰-现行的数据收集情况 • 2001-2002年度的数据采集 -始于2001.8止于2002.4 -从29,000,000个URL中收集了9,400,000个文件 -压缩后的文件总计340G字节 -储存在国际超级计算中心提供的介质上 -硬件:SunE450服务器
芬兰-现行的数据收集情况 • 项目的经验:“NEDLIB数据收集系统可以除了任何网络空间(美国除外),配合完备的硬件,提供了足够的储存空间” (Juha Haleka,“Finish Team”项目的主持人)
北欧网络档案库 • 北欧国际图书馆联合计划 • 不取决于数据是用哪个软件收集的 -NEDLIB(芬兰 挪威 丹麦) -COMBINE(瑞典) • 选择挪威的搜索引擎(FAST) • 软件: -从100种不同MIME转换称HTML格式 -识别大部分欧洲语言 • 预算:260,000欧元(AUS$ 475,000)
英国 • 英国图书馆 -“Domain.uk” 计划(始于2002) • 选择了100个英国站点 • 给备选的站点发现以活得批准 • 每3个星期重新访问 • 使用“Bluesquirrel Web whacker”软件 • 定期检查链接、变化和丢失 -有意图提高规模(2004 竞标)
英国 • UKOLN 研究计划 -“uk.domain”估计大小应该有3,000,000个站点,24,000,000左右的网页。 • Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。 -医学网站 -2002.3提供咨询,2002.10 完成数据 -2002.8 初步报告,最后报告会散布在整体里。
德国 • 档案库(德国藏书) -收集目标资料的经验 -两次不完全的快速扫描(2000.12,2000.2)
法国 • 档案库(法国藏书) • 2001:进行了两次小规模尝试,收集了16,000左右的音乐、视频等多媒体站点。 -结果并不是令人满意 • 一些非预期的特点 • 过大的站点 -正计划用两种不同的机器进行一次新的更为可行的研究。 -2001.6修改了允许储存的法律,但是扔未获得国会通过。
日本 • 国家议会图书馆 • WARP(Web Archiving Program) • 初步是实行选择性获得数据 • 日本版权法有了一些大的变化,有可能获准进行一些更加深入的数据收集工作。
国际档案库 • 1996年由Brewster Kahle以卖出WAIS获得的15,000,000美元建立国际档案库。 • 非营利组织 -发起者包括:AT&T实验室,Compaq,Xerox PARC,Quantum DLT,国家科学基金 1996年后开始归档网页,包括1903-1973的电影资料
国际档案库 • 每两个月完全扫描一次 • 机器排除,一些新闻、个人、照片。 • 完全拷贝了亚历山大港的档案库 • 在不同的洲复制。“复制是最好的保存方法” • 版权?“也许这严重的侵害了合法的版权” (Lawrence Lessig,斯坦福的IP法和互联网空间专家)
国际档案库(“wayback machine”) • http://www.archive.org • 以收集和归档国际互联网公共网页为目标 • 包括大部分的图像数据 • 2001.10发部 • 对公众完全开放 • 每天2万用户,每秒200人 • 不提供文本搜索,只由URL搜索 • 资金支持情况?-未知
结论 • “我们在这里不是为了触探法律。我们要创造一个我们想要生活的世界。一个没有图书馆的世界就是一个没有记忆的世界,这是将是一场悲剧。”(B.Kahle,2001.10) • “在互联网上,谁都可以成为一个出版者,现在我们这个图书馆就可以做这样的事情。” (B.Kahle,2002.5)