320 likes | 454 Views
“ CALIS 高校学位论文全文数据库 ” 系统框架和功能介绍. 清华大学图书馆 赵 阳. 清华大学图书馆. 主要内容. 1. 学位论文全文数据库两种建库方式比较分析 2. “ CALIS 高校学位论文全文数据库 ” 系统总体框架 3. OAI 协议介绍 4. 论文提交和发布系统功能模块. 清华大学图书馆. 1. 学位论文全文数据库两种建库方式比较分析. 集中建库模式 分布环境下基于 OAI 协议的建库模式. 清华大学图书馆. 1. 学位论文全文数据库两种建库方式比较分析. 集中建库模式
E N D
“CALIS高校学位论文全文数据库”系统框架和功能介绍“CALIS高校学位论文全文数据库”系统框架和功能介绍 清华大学图书馆 赵 阳 清华大学图书馆
主要内容 1. 学位论文全文数据库两种建库方式比较分析 2. “CALIS高校学位论文全文数据库”系统总体框架 3. OAI协议介绍 4. 论文提交和发布系统功能模块 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 • 集中建库模式 • 分布环境下基于OAI协议的建库模式 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 • 集中建库模式 国外:美国UMI的《PQDD博硕士学位论文全文数据库》 国内:清华同方的《中国优秀博硕士学位论文全文数据库》 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 • 分布环境下基于OAI协议的建库模式 由美国弗吉尼亚理工大学发起的NDLTD(network digital library of thesis and dissertion),采用“各成员单位建立本地的学位论文提交和发布系统、通过OAI协议集中各校的元数据”的分布建库模式 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 清华大学图书馆
1.学位论文全文数据库两种建库方式比较分析 • 有助于版权控制 • 避免了日后对纸本数字化加工的繁重过程,节省了人力、物力 • 原生”电子文本的品质明显优于纸本经过数字化处理的图像和文本,大大方便了资源的利用和保存 • 分布建库模式是一种符合各高校数字图书馆发展方向,也符合当前正在形成的分布式数字信息环境的趋势 清华大学图书馆
USER Oai service provider CALIS高校学位论文元数据库 全文链接(OpenURL) 元数据收割服务器(通过OAI收割元数据) Oai data provider TRS论文提交发布系统 TPI论文提交发布系统 方正论文提交发布系统 麦达论文提交发布系统 其它平台 2.“高校学位论文全文数据库”系统总体框架 清华大学图书馆
2.“高校学位论文全文数据库”系统总体框架 • 系统采用OAI协议自动收集分布在各校的学位论文元数据; • 各校负责在本校建立学位论文全文提交系统和检索服务系统(包括全文服务); • 项目牵头单位(清华大学图书馆)推荐TRS、TPI、麦达、方正等几套论文提交和检索服务平台,并以组团的方式协调各校购买,各学校根据自身情况自愿选择其一; 清华大学图书馆
2.“高校学位论文全文数据库”系统总体框架 • 各校也可自行开发提交和检索系统、但必须遵循本项目确定的元数据标准和相关技术规范,必须支持OAI协议(作为OAI的数据提供方); • 由清华大学图书馆负责汇总元数据(文摘索引)并提供服务,通过OPENURL链接到各校的论文全文;全文访问权限由各校控制; • “CALIS高校学位论文元数据库”系统平台由清华图书馆负责规划和组织建设; • 清华大学图书馆负责制定本项目的元数据标准规范; 清华大学图书馆
3. OAI协议介绍 • OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting),简称OAI • 1999年由美国数字图书馆联盟(DLF)、网络信息联盟(CNF)等组织提出的一个应用框架。 • 最初是为了解决电子期刊的预印本(pre-print)的互操作和元数据收割(metadata harvesting)问题 • 2000年OAI协议的应用扩展到数字图书馆领域,目的是实现分散的、不同系统平台之间的元数据交换和共享,提高系统的互操作能力 清华大学图书馆
3. OAI协议介绍 • OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting),简称OAI • 1999年由美国数字图书馆联盟(DLF)、网络信息联盟(CNF)等组织提出的为一个应用框架。 • 最初是为了解决电子期刊的预印本(pre-print)的 互操作和元数据收割(metadata harvesting)问题 • 2000年OAI协议的应用扩展到数字图书馆领域,目的是实现分散的、不同系统平台之间的元数据交换和共享,提高系统的互操作能力 清华大学图书馆
3. OAI协议介绍 遵循OAI协议的系统依据其任务的不同,分为两类: • Data Provider:对来自服务提供者的request做出response,以OAI要求的格式(XML)向服务提供者提供元数据 • Service Provider:“收割”(harvest)元数据,并基于元数据提供增值服务 Repository Data Provider OAI Verb Data Provider Service Provider Data Provider Request user Repository Record Response Repository 清华大学图书馆
3. OAI协议介绍 • OAI协议是建立在http协议基础上的应用协议,OAI的请求使用HTTP中的GET或POST方法 • 每个OAI请求都必须包括一个名字为‘verb= OAI方法名’每个方法名有若干个参数,当使用多个参数时,用“&”隔开 • 服务提供者可以使用OAI协议的“方法名”向数据提供者发出请求,按请求条件收割数据提供方的元数据 • OAI的响应格式是通用的XML编码 清华大学图书馆
3. OAI协议介绍 清华大学图书馆
3. OAI协议介绍 • 例如:请求http://an.oa.org/OAI- script? verb=GetRecord &identifier=oai: arXiv :hepth/9901001&metadataPrefix=oai_dc • 表示使用的OAI方法是GetRecord,要请求得到identifier是oai:arXiv:hepth/9901001的记录,记录的元数据格式是oai_dc • OAI协议规定,遵循OAI的系统必须支持DC格式,是否支持其它元数据格式可以由系统自行决定,返回的元数据格式可通过metadataPrefix参数规定 清华大学图书馆
3. OAI协议介绍 • 由于OAI协议的简单性、灵活性和平台无关性,目前许多数字图书馆都提供OAI接口,例如: American Memory(LOC) NDLTD Archives in London Archive of European Integration • OAI协议在实际应用中也发现有一些不够完善的地方,例如在记录删除、记录更新、记录标识符的处理等方面没有详细规则 清华大学图书馆
论文提交 论文提交 不合格 管理员审核 管理员审核 合格 合格 文档标准化 管理员编目 论文全文发布和检索系统 论文全文发布和检索系统 OAI接口 OAI接口 文档标准化 4.论文提交和发布系统功能模块 不合格 管理员编目 管理员编目 清华大学图书馆
4.论文提交和发布系统功能模块—论文提交 • 提交权限认证:要求系统提供两种选择,各校根据本校情况自行选择 不需要权限认证 需要权限认证 • 提交表单项目:要求系统提供表单项目的配置,系统必须包括核心表单项目,其它表单项目可由管理员根据本校情况,通过可视化界面自由配置 清华大学图书馆
4.论文提交和发布系统功能模块—论文提交 • 全文文件名 一般选择“学号+学校代码+论文全文格式.扩展名”组合来确定文件名,论文全文格式为word,需要区分97、2000或XP,扩展名取自学生提交的文件名; 例如:980021 -211030-word97.doc(表示学号为980021提交的word97的文件); • 提交结果查询 通过输入认证条件,如学号+密码等来查询,是否提交成功,或者修改后再次提交 清华大学图书馆
4.论文提交和发布系统功能模块—管理员审核 • 记录处理 对学生提交的记录逐条进行检查,包括检查论文文摘等元数据和论文全文; 不合格的论文给出不合格原因,系统最好提供常用的不合格信息列表,方便管理员选择。不合格信息通过两种方式返给学生:1)自动发email 2)学生通过提交结果查询页面选择; 系统还应该提供按院系分配任务功能,不同的管理员分别管理不同院系的论文 ; 清华大学图书馆
4.论文提交和发布系统功能模块—管理员审核 • 记录统计 可按院系统计,未处理的纪录、不合格的纪录和合格的纪录总数,统计结果可按照姓名、学号、提交日期、培养单位等项目排序; • 记录删除等 • 建议审查合格的记录立即发布,供读者查询 清华大学图书馆
4.论文提交和发布系统功能模块—管理员编目 • 编目字段主要包括 馆藏号 论文发布年限(确定几年后可以公开服务) 清华大学图书馆
4.论文提交和发布系统功能模块—管理员编目 • 论文发布年限确定有两种方法 • 与学校论文主管部门协商,由学校统一规定论文的服务年限,例如内部的论文统一规定为3年之后在因特网上发布,秘密的论文统一规定为8年之后发布; • 论文的发布年限由学生和导师共同确定,学生提交给图书馆的授权书上注明发布年限; • 各校可根据本校情况自行决定采用何种方式; • 不论采用何种方式,最好要求学生提供一份授权书,作为凭证 • 针对这种情况,系统最好提供:一是批量加入年限,二是一条条地加入年限,系统读到年限后,自动将论文服务的权限放开; 清华大学图书馆
4.论文提交和发布系统功能模块—文档标准化 • 即将学生提交的word文件转成pdf文件 • 自动的批量转换,不需要人工干预,系统分三个目录,“word文档”、“转换成功的pdf文档”、“转换不成功的pdf文件”。系统自动将转换的文件放入相应的目录中; • 在转换的同时,系统生成两个文件:一个是完整的pdf文件;一个是前24页的pdf文件; • 完整的pdf文件需要进行加密处理;不能打印、不能存盘或另存为;不能进行编辑和拷贝等操作 ; • 不完整的pdf文件不需要控制权限 ;任何用户都可以访问 清华大学图书馆
4.论文提交和发布系统功能模块—全文发布 和检索系统 • 访问权限 基于用户和IP访问控制 • 检索 提供简单检索和组合检索功能,可进行二次查询,也可进行智能扩展检索; 检索字段可由管理员来配置。一般检索字段包括题名、作者、导师、文摘、全面检索等; 检索词之间可进行逻辑组配; 提供按学科分类浏览功能; 清华大学图书馆
4.论文提交和发布系统功能模块—全文发布 和检索系统 • 论文统计管理 提供对单篇论文浏览的总次数统计 根据IP地址范围对来访院校进行统计排名 浏览次数前30位论文的排名 清华大学图书馆
4.论文提交和发布系统功能模块—OAI接口 • 支持OAI协议 • 能响应服务提供方的请求,并向之提供元数据 • 数字资源唯一标识符identifier统一规定为“学校代码+学号” 清华大学图书馆
谢 谢 大 家! 清华大学图书馆