130 likes | 305 Views
电子期刊最新卷期浏览和邮件提醒服务. 殷蜀梅 北京大学医学图书馆系统部. 主要内容. 设计目的 系统功能设计 总体设计框架 技术方法 系统运行效果 后续工作. 设计目的. 帮助读者把握领域内最新研究动态 学术期刊是能及时反映学术发展动态的出版物。当前电子期刊的种类和来源众多,有图书馆订购的全文期刊数据库(包括全科和专科数据库),有开放获取的免费全文期刊库,有免费期刊网站等等。
E N D
电子期刊最新卷期浏览和邮件提醒服务 殷蜀梅 北京大学医学图书馆系统部
主要内容 • 设计目的 • 系统功能设计 • 总体设计框架 • 技术方法 • 系统运行效果 • 后续工作
设计目的 • 帮助读者把握领域内最新研究动态 • 学术期刊是能及时反映学术发展动态的出版物。当前电子期刊的种类和来源众多,有图书馆订购的全文期刊数据库(包括全科和专科数据库),有开放获取的免费全文期刊库,有免费期刊网站等等。 • 电子学术期刊是散落在图书馆订购的各种期刊全文数据库以及免费电子期刊网页中,仅医学图书馆订购的期刊全文数据库就有22种之多,可以想象研究人员是不可能每次有信息需求的时候都穷尽这么多数据库的检索,因此急需要这种工具来加强数据库的利用,对期刊全文数据库进行集中报道、集中揭示,提高图书馆主动服务的水平。
系统功能设计 • 主动采集期刊网页上包含有卷期以及文献信息的页面代码 • 自动将html代码转换成格式化的xml文件 • 抽取xml文档中的关键内容存入后台数据库 • 实现电子期刊数据的检索和发布功能 • 实现基于期刊最新卷期的个性化定制服务
技术方法 • 系统开发和运行环境的选择
电子期刊网站页面特点分析 • 笔者挑选了几个具有代表性的数据库进行分析,发现大部分电子期刊信息展现层次是分三个页面进行的:先显示该期刊的基本信息和收藏的卷,从某一卷的链接点击后显示特定卷下的详细期数,然后通过期的链接展现详细的期刊目次信息。也有部分数据库在初始页面就将详细的期次展现出来,这样只需要两级页面就到达期刊目次页面。 • 根据电子期刊的访问方式,笔者设计了期刊目次聚合系统通过程序自动以http协议的方式模拟用户访问的形式来访问电子期刊网站,逐步获取到最新一期卷期、卷期页面链接、包含文摘的目次页面链接等,直到最终获取到包含文摘的目次页面HTML代码,将HTML代码转换成xml文档,根据网页格式模板的定义,来抽取其中的题名、作者、页码、DOI、文摘、关键词、全文链接等信息。
开始 从数据库读取URL 是 记录尾? 结束 否 采集数据库 调用HttpClient从Web上下载HTML文档 否 成功获取? 是 调用jtidy和jdom转换成XML XSLT模板 调用XPATH定位 路径 路径/目次信息? 信息 去重、入库 期刊目次信息抽取流程图
后续工作 • 解决小语种和化学符号的获取和显示成乱码的问题 • 扩大抽取的期刊数据库数量 • 对期刊进行学科分类,提供按学科领域来推送期刊最新文章的服务 • 收集期刊的出版频率,按照期刊不同的出版频率定期抽取