360 likes | 494 Views
文本挖掘系统. -- 面向自动化学科中文期刊论文. 报告人:刘禹 指导教师:杨一平研究员 日期: 2012 年 5 月 20 日. 主要内容. 需求概述 研究目标 系统概述 关键技术 总结及展望. 需求概述. 自动化学科创新方法课题的三个目标是: ( 1 )建立学科知识体系;( 2 )开发学科知识服务网络平台;( 3 )提供知识服务,推动知识创新。. 研究目标. 获得论文的题录信息 初步分离作者、机构、文章题目、关键词、摘要等知识要素 利用文本挖掘技术实现对知识要素的精细化处理. 系统概述. 数据获取. 垂直爬虫技术. 数据获取. 数据清洗.
E N D
文本挖掘系统 --面向自动化学科中文期刊论文 报告人:刘禹 指导教师:杨一平研究员 日期:2012年5月20日
主要内容 • 需求概述 • 研究目标 • 系统概述 • 关键技术 • 总结及展望
需求概述 • 自动化学科创新方法课题的三个目标是: (1)建立学科知识体系;(2)开发学科知识服务网络平台;(3)提供知识服务,推动知识创新。
研究目标 • 获得论文的题录信息 • 初步分离作者、机构、文章题目、关键词、摘要等知识要素 • 利用文本挖掘技术实现对知识要素的精细化处理
系统概述 数据获取 垂直爬虫技术 数据获取 数据清洗 文本分类技术 知识获取 构建学科知识体系 特征词选择算法 关键词语义重复 关键词语义聚类 学者姓名歧义 同名消歧算法 规范机构名称 机构名称归一化
关键技术 • 基于卡方拟合优度的特征词选择算法 • 关键词的形态语义聚类算法 • 人物机构对齐算法 • 同名消歧算法 • 机构名称抽取算法
基于卡方拟合优度的特征词选择算法(chifit) • 理论背景 • 皮尔逊卡方检验主要应用在检测两个随机变量是否独立和检验分布的拟合中 • chifit特征词选择算法从分布拟合的角度对词汇和类别之间的独立性进行假设检验 • chifit计算公式
实验结果 • 结论 • chifit特征词选择算法和卡方、信息增益等特征词选择算法效果相当,好于点互信息特征词选择算法 • chifit特征词选择算法可以在较低的特征维度上获得较好的分类效果,因此适用于计算资源有限的应用场景
应用场景 • 采用chifit特征词选择算法从关键词中挑选出属于自动化学科的专业术语,交给编辑人员筛选,构建自动化学科知识树
关键词的形态语义聚类算法 • 需求分析 • 自动生成汉英术语对照词典 • 构建“知识族谱”
算法流程 • 编辑距离二次计算框架 • 作用于最优路径集合上的启发式规则集
实验结果 • 数据集:抽取224个汉语术语进行实验,按照语义是否相同人工标注真值
应用场景 • 自动构建知识族谱 • 将与查询知识点密切相关的知识点,按照时序上的发展继承演变关系组织起来
人物机构对齐算法 • 需求分析 • 通过英文形式的作者姓名与机构名称之间的对应关系获得对应的中文形式
基于距离属性的二叉分裂算法 • 保持原有位序的分裂式层次聚类方法
实验结果 • 数据处理中记录下可能出现潜在错误的实例 • 计算得到人物机构对齐算法的准确率为 • 262,896/299,823=87.684% • 其中262,896为被正确进行人物机构对齐的人物记录条目;299,823为总的人物记录条目
同名消歧算法 • 需求分析 • 汉语中存在大量人名重复现象,给准确统计学者的学术成果带来困难
算法思路 • 将同一个名字的作者条目映射为散点图上的结点 • 每一个结点有且仅有机构字符串属性 • 按照属性相似度原则给散点图加边 • 图中的每一个连通分量上的条目指向同一人物实体
加边算法 • 两单位字符串的最长公共子序列长度与其中较小字符串长度之比大于0.9且两单位字符串的最长非对称前缀长度大于2 • 两单位字符串的最长非对称前缀匹配模板(大学|研究院|研究所|研究中心) • 两单位字符串的最长非对称前缀匹配模板(?!<中国科)学院
最长公共子序列 • 一个给定序列的子序列即为给定序列在保持原有位序的基础上去掉若干元素(也可能一个都不去掉),如Z=<B,C,B,D>是X=<A,B,C,B,B,D>的子序列 • 两个给定序列X,Y的最长公共子序列既是X的子序列,又是Y的子序列,且在所有X,Y的公共子序列中长度最长。
最长非对称前缀(LAP) • 如果z是两个字符串s,t的非对称式前缀,则可能有以下两种情况出现: • z分别是s,t的前缀 • z是s的前缀,是t的子串 • 如果z在所有s,t的非对称式前缀集合中长度最长,那么则称z是字符串s,t的最长非对称式前缀
实验结果 • 人工标注白硕、王斌、赵军的样本作为测试集
机构名称抽取算法 • 需求分析 • 机构字符串书写不规范,给统计学术机构的学术成果带来不便
算法思路 • 借助同一作者实体的机构记录对机构名称进行规范化
模板优先队列 • ⑴中国科学院.*?所;⑵中国科学院.*?院;⑶中国科学院.*?中心;⑷中国科学院.*?台;⑸^.*?大学;⑹^.*?学院;⑺^.*?学校;⑻^.*?研究院;⑼^.*?院;⑽^.*?公司;⑾^.*?厂;⑿^.*?部队;⒀^.*?所;⒁^.*?中心;⒂^.*?局。
算法有效性 • 不需要人工事先整理出机构规范化表 • 不需要有很厚语文素养的专家参与 • 不需要复杂的规则模板 • 仅依赖数据的自学习和自校验能力
总结 • 从处理前后数据量的变化来看文本挖掘系统的有效性 • 从实验数据的评测指标上来看文本挖掘系统的有效性 • 从知识服务网络平台的用户体验上来看文本挖掘系统的有效性 • 从知识服务网络平台与其他平台的对比来看文本挖掘系统的有效性
总结 • 文本挖掘系统在知识要素抽取上的效果
总结 • 论文中提出的算法及性能评价
展望 • 同名消歧算法无法处理同机构的人物同名问题;可融入共发文关系、论文发表期刊、论文发表时间等特征进一步改进算法 • 构建知识族谱之前,可加入话题聚类步骤对现有术语进行粗粒度聚类 • 知识族谱的结构形式可以借鉴有向图的马尔科夫毯进行改进
在学期间工作 • 项目 • 负责科技部创新方法工作专项“自动化学科创新思想与方法研究”的知识要素提取工作 • 自动化学科知识服务网络平台 • http://autoinnovation.ia.ac.cn/ • 项目数据专区 • http://www.datatang.com/member/5878 • 专利 • “知识谱系的可视化方法”,申请号:2012100220479,申请人:刘禹,刘禹,杨一平
谢谢! Q&a