380 likes | 727 Views
C-DBLP 系统开发报告. 2008.7.26. Outline. C-DBLP 系统介绍 C-DBLP 开发进度 C-DBLP 数据集成 C-DBLP 界面设计 C-DBLP 功能规划 总结及展望. 个人信息空间. C-DBLP. DBLP. C-DBLP 系统介绍. 设计初衷: 为中文文献建立集成数据库 用户为中心的信息平台. C-DBLP 系统介绍. 第一阶段目标 实现一个类似 DBLP 的以研究者为中心的中文论文信息系统。 第二阶段目标 实现更多信息的 Mashup ,提供以用户为中心的更加丰富的信息展示。. Outline.
E N D
C-DBLP系统开发报告 2008.7.26
Outline • C-DBLP系统介绍 • C-DBLP开发进度 • C-DBLP数据集成 • C-DBLP界面设计 • C-DBLP功能规划 • 总结及展望
个人信息空间 C-DBLP DBLP C-DBLP系统介绍 • 设计初衷: • 为中文文献建立集成数据库 • 用户为中心的信息平台
C-DBLP系统介绍 • 第一阶段目标 实现一个类似DBLP的以研究者为中心的中文论文信息系统。 • 第二阶段目标 实现更多信息的Mashup,提供以用户为中心的更加丰富的信息展示。
Outline • C-DBLP系统介绍 • C-DBLP开发进度 • C-DBLP数据集成 • C-DBLP界面设计 • C-DBLP功能规划 • 总结及展望
C-DBLP开发进度 • 7月4~12日 • 设计数据库模式 • 规划网站结构 • 确定待集成数据源 • 7月13日~20日 • 各个期刊数据源的集成 • 网站界面设计 • 网站功能实现 • 7月21日~24日 • 注册域名cdblp.cn • 在服务器上部署网站 • 网站界面、功能修改完善 系统规划阶段 系统开发实施 功能整合完善
Outline • C-DBLP系统介绍 • C-DBLP开发进度 • C-DBLP数据集成 • C-DBLP界面设计 • C-DBLP功能规划 • 总结及展望
C-DBLP数据集成 • 数据定位: • 计算机权威期刊 • 国内重要会议文献 • 延续采用JobTong的数据爬取技术
C-DBLP数据集成 • 已集成的数据情况: • 目前已从中国知网上集成2004年以后的期刊数据18373条 • 9大计算机核心期刊: • 软件学报 • 计算机学报 • 计算机研究与发展 • 计算机工程 • 中国图象图形学报 • 中文信息学报 • 计算机科学 • 小型微型计算机系统 • 计算机科学与探索
拼接上头部:http://www.cnki.com.cn/downValidate/InitCode.aspx?q拼接上头部:http://www.cnki.com.cn/downValidate/InitCode.aspx?q C-DBLP数据集成:数据清洗 • 爬取数据的不规范 • 手工整理9条 • 多个属性信息的分割 • 有效信息的提取
C-DBLP现有数据的问题 • 存在少数数据不规整 • 网页爬取时存在一些序言、征文通知等干扰数据 • 考虑的解决方法:手工清理 • 某些期刊内容不完整,论文数据有些项缺失 • 网络和服务器负载能力的影响 • 考虑的解决方法:用检测程序对已集成的和部分为抽取的数据进行补全 • 目前只集成了2004年以后的期刊数据 • 根据需要对2004年以前的数据进行抽取 • 会议文献集成有一定困难,目前尚空缺这方面的数据
Outline • C-DBLP系统介绍 • C-DBLP开发进度 • C-DBLP数据集成 • C-DBLP界面设计 • C-DBLP功能规划 • 总结及展望
调整ie的css 主要页面css C-DBLP界面设计 • 基于Yaml css框架 • 跨浏览器的设计 • 灵活的页面布局 • 较少的用户限制 • 两个分离的原则 • Css与html页面内容分离 • Our design和yaml分离 • 页面风格 • 简单清晰,二级页面结构 • 配色方案:主要采用灰绿色系搭配
C-DBLP界面设计 • 一级页面 高级搜索 作者检索
C-DBLP界面设计 • 二级页面 作者名字 年份排列的文献列表 新闻发布
C-DBLP界面设计:Problems • 字符集的问题 • 页面字符集的统一 • css覆盖的问题 • yaml框架中有些css无法覆盖 • 不同浏览器下的调试 • Mozilla Firefox、Internet Explorer …… • IE Bug:用针对ie的css做特别处理 • Yaml框架的使用
Outline • C-DBLP系统介绍 • C-DBLP开发进度 • C-DBLP数据集成 • C-DBLP界面设计 • C-DBLP功能规划 • 总结及展望
功能展示 • 某用户小张,需要了解孟小峰老师发表过的文章,小张听说过CNKI中国知网,也了解国外有个DBLP的专业文献网站,但是知网需要付费,更糟糕的是小张英文学得不好,…… 彷徨中,他找到了www.cdblp.cn
功能展示 小张在C-DBLP的首页搜索栏中输入了检索条件。
功能展示 提交 小张在结果中找到了自己比较感兴趣的一篇文章,点击链接后……
功能展示 点击文章链接 小张想看看软件学报06年10期都有哪些文章,所以他继续点击……
功能展示 这一期的软件学报没有其他小张感兴趣的内容,所以他想看看软件学报其他期的内容,所以,他点击《软件学报》
功能展示 在这里,他找到了《软件学报》最近几年各期的链接。 《软件学报》有了,那么其他期刊呢?
功能展示 果然,他找到了计算机领域国内出名的刊物列表。 点击“journal” 小张注意到导航条中有一个Conference,于是他好奇地点击了这个链接。。
功能展示 原来这是一个国内知名会议的列表。
功能展示 小张想知道孟老师2008年有没有发表过关于Deep Web的文章,所以他来到”高级搜索“功能。
功能展示 提交查询请求后,他得到了这样的结果。 小张发现其他作者名字上有超链接,于是他尝试着点击了其中一个。
功能展示 原来从这里也可以找到这位作者的文章列表。
C-DBLP功能特点(一) • 以作者为中心,兼顾多样化搜索需求 系统定位:计算机领域中文文献集成系统 用户需求:基于author的文献检索
C-DBLP功能特点(二) • 个人数据空间导向 传统文献搜索:关键字、标题、作者 C-DBLP: ·基于作者的数据集成 ·个人数据空间项目的第一步
C-DBLP功能特点(三) • MVC模块化设计 良好的模块设计可以使开发事半功倍。
C-DBLP功能特点(四) • 检索结果缓存机制 需求: ·数据量大 ·检索响应速度慢 ·相同条件检索多
C-DBLP功能特点(五) • URL美化 搜索“刘伟”,得到的结果页面URL是: 实际实现: search_result.php?author=“刘伟“
Search“刘伟” Like语句匹配 导致的问题 刘伟东 刘伟俭 刘伟宁 刘伟军…… 功能细节的改进
Outline • C-DBLP系统介绍 • C-DBLP开发进度 • C-DBLP数据集成 • C-DBLP界面设计 • C-DBLP功能规划 • 总结及展望
总结及展望 • 功能需要改进和完善 • Author表的抽取和作者信息的集成 • Conference数据的引入 • Hot Topics的自动生成 • 个人数据空间的规划与实现
Welcome to use our system, and we really need your advice! Thank you!