1 / 37

何军老师、刘红岩老师 武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博 2008 年 1 月 6 日

何军老师、刘红岩老师 武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博 2008 年 1 月 6 日. 本体构建与学习小组工作汇报. 我们的工作. 1. 本体进化 ( 武文娟 ) 2. 本体学习 ( 李直旭 ) 3. 互联网上非规范知识获取 ( 杨慧、魏巍 ) 4. 数据挖掘基础算法研究 ( 胡泊 ) 5. 总结 WHAT YOU GET IS WHAT YOU WANT. 1. 本体进化. 尝试应用 Okapi BM25 公式进行概念学习. BM25 是基于概率检索模型,它是按照文档与所给查询相关的概率而对文档进行排序的一个函数

Download Presentation

何军老师、刘红岩老师 武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博 2008 年 1 月 6 日

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 何军老师、刘红岩老师武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博2008年1月6日何军老师、刘红岩老师武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博2008年1月6日 本体构建与学习小组工作汇报

  2. 我们的工作 1. 本体进化(武文娟) 2. 本体学习(李直旭) 3. 互联网上非规范知识获取(杨慧、魏巍) 4. 数据挖掘基础算法研究(胡泊) 5. 总结 • WHAT YOU GET IS WHAT YOU WANT 本体构建与学习小组

  3. 1. 本体进化 尝试应用Okapi BM25公式进行概念学习 • BM25是基于概率检索模型,它是按照文档与所给查询相关的概率而对文档进行排序的一个函数 • 所要回答的基本问题是:某个文档与某个查询相关的概率是多少? • 应用BM25计算每个关键词和所在论文的分类号的相关程度 • 关键词作为候选概念的条件 • 至少与一个分类号的相关程度足够大 本体构建与学习小组

  4. 1.1 实验(1) 内容:将候选关键词按BM25值从大到小排序,考察被手工剔除的词 • 实验结果表明:与第一次进化(采用tf)的方法相比,手工剔除的词中有50%的排名在倒数1/3 • 排在前面的大部分是和某分类号有相关关系的,即手工剔除有误。 本体构建与学习小组

  5. 1.1 实验(2) • 发现第一次进化时不够准确的对应关系 • 例如:导游人员 • 第一次进化:按频率计算,应与F592对应 • 采用BM25:应与F590.63对应 F592 中国旅游事业 旅游经济\中国;旅游业\中国 F590.63 旅游服务业务 旅游服务;旅行社\业务;导游\业务 本体构建与学习小组

  6. 1.2 结果分析 • 绝大多数情况下,计算关键词的BM25公式值能准确反映出它和某分类的相关程度,从而在本体中找到该概念的位置。 • 这种方法相对于以前的进化方法,能更准确的发现新概念及其与本体中已有分类的对应关系,减少通用词等噪音,从而减少专家手工剔除时的工作量。 • 问题:对于一些通用概念,由于某些分类下的论文数很少,导致BM25值计算偏高的现象。 本体构建与学习小组

  7. 1.3 下一步工作的展望 • 利用已有的本体结构和文献资源,对相同分类下的主题词(术语)进行有监督的聚类,聚集相似术语,发现同义词关系和概念间的父子关系。 • 利用获取到的一些资源,进行文本挖掘和模式匹配的工作,发现其它更多的关系。 • 本体进化主要是语义一致性的检测和维护,开发相关的工具是比较现实的工作。 • 目标:完成相关工作的论文1篇。 本体构建与学习小组

  8. 2. 领域本体学习 利用学术会议的会议录探究领域本体的学习 本体构建与学习小组 数据源:各个学科、各个领域,每年都会召开很多学术会议,其中很多都有会议录,其中包含很多可以挖掘的重要信息。 实验数据源:从方便探求的角度考虑,我们以DBLP中记录的computer science方面的数据为实验数据源。 实验目的:希望可以DBLP中很好地学习到computer science方面的概念和关系。从而将此方法推广到非计算机学科的领域本体学习中。

  9. DB会议页面 本体构建与学习小组

  10. Conference name Year Session name Author names Paper Title 本体构建与学习小组

  11. 2.1 完成了获取领域概念的工作 1697条 记录 Session names Terms Concepts Relations Axioms Non-taxonomy Taxonomy 本体构建与学习小组 • 数据规模: • 11600多条的记录。 • 如何利用数据来进行本体学习?

  12. SessionName分析 本体构建与学习小组 • Example1: Data Mining XML Concurrency Control • Example2: Data Warehousing and Data Mining Data Warehousing and Mining Data, Text and Web Mining Clustering, Data Mining, Approximations Data Mining / Information Dependencies Relational / Parallel Database Processing • Example3: Data Mining – Association Rules and Decision Trees AI and Knowledge-Based Systems – Reasoning

  13. 两类术语 Atom Terms Multi-concept Terms 1. Split Multi-concept terms and put all the atom terms we get into table “Atom terms” 2. Get the most frequency terms as concepts 本体构建与学习小组

  14. 抽取到的DB方面的概念1533个 本体构建与学习小组

  15. 希望得到DBLP数据源的SCHEMA 2.2 完成了数据获取的工作 Authors Publishes Proceedings Conferences Publications author-id author-id paper-id proc-id conference author-name paper-id title conference publisher email session-id year proc-id location Sessions session-id session-name 15 • 数据源获取程序: • 帮助获得整个DBLP数据库上的所有CS会议上的60多万篇论文相关信息。 • XML文件转换 • 网页抓取 – 得到session名称并增量更新数据库 本体构建与学习小组

  16. 2.3 正在进行的工作-获取本体中的关系 Sessions Proceedings Conferences Authors A sigmod03 Tom sigmod04 sigmod B Mike sigmod05 vldb03 C Cathy vldb04 vldb vldb05 D John aaai04 aaai E aaai05 Mary 本体构建与学习小组 用“多表关系聚类”的方法,对session名进行聚类。Session聚类之后的结果希望可以形成一个树状结构。从而方便得到关系。

  17. 获取本体中的关系 – 理想效果 Computer Science Data Management AI OS …… Data Mining Spatial DB 本体构建与学习小组

  18. 2.4 下一步工作的展望 本体构建与学习小组 用分类算法实现Session中term的自动抽取 数据获取后实现多关系聚类,从而发现Session间的关系 在计算机领域实验成功后,尝试将相应方法应用于其他领域,比如经济学,法学等。 目标:完成1篇论文和一个Demo系统。

  19. 3. 互联网上非规范知识的获取 本体构建与学习小组 目标:以互联网上的中文产品评论为分析对象,辅以电子商务网站上有关产品的介绍网页,研究基于互联网的非规范知识的获取原理与方法,同时构建一个中文产品评论结构化信息获取的原型系统。

  20. 3.1 中文非规范知识获取 本体构建与学习小组 目前的研究成果主要集中在英、日文语种 中文口语句子成分的省略现象普遍。 互联网上有关产品的评论中,很多产品特征为隐性特征,产品特征提取的难度很大 中文二意现象突出,语义极性分析对上下文的依赖加强 现有语料库,语料形式,语料过时

  21. 3.2 研究内容 本体构建与学习小组 中文特征抽取(Feature extraction) 中文意见抽取(<feature, opinion> ) 意见极性判断(Opinion orientation)

  22. (1)评论识别 本体构建与学习小组 采用机器学习、数据挖掘的方法产生一系列规则 启发式规则:bbs,blog

  23. (2)意见抽取 本体构建与学习小组 意见抽取主要采取基于模式的分类算法。这里主要是应用词性序列模式分类算法。

  24. (3)产品特征抽取 特征意见抽取 包含产品 的网页 产品规范特征 特征意见对偶字典 规范特征 特征意见对偶抽取 合并同义项 口语特征、意见 产品评论特征、意见 关键词向量字典 评论 特征意见对 特征意见对抽取 本体构建与学习小组 • 显性特征,隐性特征 • 信息来源:电子商务网页,评论网页 • 特征意见对偶字典:用于统计意见 • 关键词向量字典:由口语特征组成,用于增量模型中的新产品和已知产品的比较

  25. (4)特征意见极性判断 本体构建与学习小组 • 将每个评论用转折连词分割成若干段 • 将分段聚类 • 目的是将含有相同特征意见对偶的分段聚在同一类里,最终得到两个类。 • 意见可以分为两种:上下文无关意见,上下文相关意见。用上下文无关意见的语义极性来确定聚类的语义极性,继而用聚类的语义极性确定上下文相关意见的语义极性。

  26. 产品评论结构化增量模型 意见结构化引擎 特征意见极 特征意见 性对偶字典 对偶字典 扫描所有意见 , 是 结构化意见 统计各特征相应 产品名称 已经在产品字典中 意见 否 特征意见抽取 关键词向量 与已有产品关键词 向量比较 有相似向量 是 否 意见极性分类 本体构建与学习小组

  27. 3.3 若干尝试性实验 • 产品特征抽取 • 意见抽取 • 极性判断 本体构建与学习小组

  28. 实验(1) • 对原始评论语料不分词标注,直接尝试进行产品特征词提取。 • 方法(比较): • 对语料不做任何处理,直接按词或短语共现率输出大于sup值以上的词; • 用停用词对语料断句预处理,然后输出词或短语。 • 结果: • 噪音短语(不一定是真正的词)太多 • 因为缺乏词性标注,无法将特征和意见分开,无法进行后面的处理 本体构建与学习小组

  29. 实验(2) • 对评论语料进行词性标注预处理。 • 将[Liu 2004]中用的方法适当改进一下,用到我们的中文语料中 • 结果1: 找出来的 本体构建与学习小组

  30. 实验(2)结果分析: • Precision:6/16 ≈ 37% • Recall:6/13 ≈ 46% • Ranking: • 合并Frq list跟 Infrq list的结果,记录其分别在两个list中出现的次数(未出现的次数按对应表中的最小值给出) • 比较两次出现次数的比值,S2/S1(比值的意义是:由frq表找出的ow一般修饰fw,接着由ow找出的infrq表中若是fw,则其S2应与其S1差不多,故此值越接近1,表示其是fw的概率越大) 本体构建与学习小组

  31. 正在进行的实验工作(3) • 基于前一次尝试的召回率太低,目前尝试加入信息检索中的idf的方法。 • 另外搜集一些其它产品的评论网页 • 按词频排序的词表 • 计算每个词的idf值 • 原则: • 词频越高,在其它文档中出现越少,越可能是feature • 词频高,在其他文档中出现的也高,则不太可能是feature(如果其它文档也是评论文档,则这一类中的形容词很可能就是opinion word) 本体构建与学习小组

  32. 3.4 下一步工作的展望 • 根据对系统的设计设想,分模块进行试验,实现一个相对完整的原型系统 • 收集更多的数据集 • 提高系统识别的准确率、召回率 • 目标:完成1-2篇相关工作的论文,开发一个中文产品评论的原型系统。 本体构建与学习小组

  33. 4. 数据挖掘基础算法研究 • 多关系特征选择(Feature selection) • 目的: • 提高分类算法的准确度 • 提高分类算法的执行效率 • 提出了适合于多关系环境下进行特征选择的方法 • 做了一系列实验,结果基本满意 • 进一步工作:继续改进 • 目标:完成相关论文1篇。 本体构建与学习小组

  34. 5. 总结 • 完成4-5篇会议或期刊论文 • Waim08(Abstracts:Jan 8, 2008, Full paper:Jan 15, 2008, LNCS) • ADMA08(Submission: Feb 26, 2008, LNAI) • DEXA 2008(Feb 28, 2008.LNCS) • EC-Web 2008(Feb 29, 2008.LNCS) • PKDD 2008(Paper Sub: April 25th, 2008) • 软件学报,计算机研究与发展,清华学报 • 完成2个原型系统 • SIGIR 2008(Demo Sub: February 24 , 2008) • VLDB 2008(Demonstration Sub: March 14, 2008) • 专利申请:?? 本体构建与学习小组

  35. 谢谢! 本体构建与学习小组

  36. 本体构建与本体学习 • 在本体构建方面,研究了利用WordNet和中国分类主题词表(CCT)构建双语本体的方法。通过将WordNet和CCT的分类结构转化为对齐的格结构,实现中英文本体概念匹配,将领域性较强的CCT和通用的WordNet两个互补性的知识源集成起来。(KSEM2007) 本体构建与学习小组

  37. 本体构建与学习 • 以经济学领域的学术论文资源为依据,探讨了领域本体进化实验,并对经济学本体进行了一次实际的进化。(现代图书情报技术) • 构建“经济学学科领域本体”EO V1.0。我们以《中国分类主题词表》中经济类分类/主题概念为基础,建立了经济领域的初始本体概念集,共获取经济本体概念12627个,其中分类概念1523个,主题概念11104个(其中具有属分关系的主题词5366个,具有相关关系的主题词4351个)。 • 概念学习。从《中国期刊全文数据库》中抽取2002-2004期间文献作为本体进化的实验数据。标注关键词的论文232456篇,从中共获取关键词164553个,其中,经济初始本体中已有概念5172个,通用概念1748个,被《中国分类主题词表》收录的相关领域主题词9478个,剩下150425个关键词作为候选概念。 • 获得“经济学领域本体”的新版本(EO V2.0),新版本增加本体词2161个,新增关系2821个,其中分类概念与主题词之间的关联关系2161条,等同、近义、相关关系的词660条。 本体构建与学习小组

More Related