1 / 104

Web 挖掘与信息抽取系统

Web 挖掘与信息抽取系统. 英国日用品零售商 GUS 需要准确 预测未来的商品销售量,以便减少库存数量:. 借助数据挖掘技术,使库存成本比原来减少了3.8%. 汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户……. 使营销费用减少了30%. 美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象……. 发现可能存在欺诈的交易,节约了大量的调查成本. 发现商品组合销售规律,提高销售率. 我选择 《 货币战争 》 ,当当又给我推荐 《 沉思录 》 、 《 资本战争 》…. 1 Web 挖掘. 1.1数据挖掘概述

Download Presentation

Web 挖掘与信息抽取系统

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web挖掘与信息抽取系统

  2. 英国日用品零售商GUS需要准确预测未来的商品销售量,以便减少库存数量:英国日用品零售商GUS需要准确预测未来的商品销售量,以便减少库存数量: 借助数据挖掘技术,使库存成本比原来减少了3.8%

  3. 汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户……汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户…… 使营销费用减少了30%

  4. 美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象……美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象…… 发现可能存在欺诈的交易,节约了大量的调查成本

  5. 发现商品组合销售规律,提高销售率

  6. 我选择《货币战争》,当当又给我推荐《沉思录》、《资本战争》…

  7. 1Web挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

  8. 1.1概述 1.1.1数据挖掘定义 • 狭义 • 数据挖掘是知识发现(KDD)过程中的一个特定步骤,是用专门算法从数据中抽取模式,然后通过解释和评价转换成最终用户可理解的知识 • 广义 • 由于KDD的其他步骤对数据挖掘的运行性能和结果正确性影响很大,因此,通常所说的数据挖掘往往包括KDD的全过程。

  9. 一般定义 • 数据挖掘是从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。 • 特点 • 有效性 • 保证挖掘出来的信息的可靠性; • 新颖性 • 要挖掘那些不能靠直觉发现的信息或知识 • 潜在有用性 • 发现的知识有实用价值和可实现 • 最终可理解性 • 发现的模式能被用户理解、接受、运用

  10. 1.1.2 数据挖掘涉及多学科领域 • 数据库技术 • 人工智能 • 神经网络 • 统计学 • 模式识别 • 知识库系统 • 知识获取 • 信息检索 • 高性能计算 • 可视化 • …

  11. 数据 收集 预 处理 格式 转换 数据 挖掘 模式 评估 知识 表示 1.1.3数据挖掘一般过程 • 数据收集:通过各种方式广泛收集用户的信息,建立必要的数据库与数据表,为数据挖掘做准备。 • 数据处理:对收集到的信息进行诸如去噪等操作,从而确保数据能够真实反映待要挖掘的对象。 • 数据变换:将经过去噪的数据进行一定的格式转换,使其适应数据挖掘系统或数据挖掘软件的处理要求 • 数据挖掘:利用挖掘方法对数据进行分析,挖掘出需要的各种规则、趋势、类别、模型等 • 模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性 • 知识表示

  12. 1.1.4数据挖掘功能 • 数据总结 • 数据压缩 • 分类模型发现 • 学科分类 • 聚类模型发现 • 主题聚类发现研究热点 • 关联规则发现 • 如股市升降与突发事件的关联 • 序列模式发现 • 如DNA序列相似性发现 • 依赖模型发现 • 如发现A事件发生前一定有B事件发生 • 异常和趋势发现等 • 如:发现交易中的欺诈行为,或者根据主题词演变,发现学科研究走向等

  13. 1网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

  14. 1.2Web挖掘 1.2.1Web挖掘(Web Data Mining) • 定义 • 利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取蕴涵的、未知的、有潜在应用价值的信息的过程。 • 指从大量的Web文档集合C中发现隐含模式P的过程: C->P

  15. Web挖掘与传统数据挖掘

  16. Web挖掘与Web信息检索

  17. 1.2.2Web挖掘分类 • Web内容挖掘 • Web结构挖掘 • Web使用挖掘

  18. Web内容挖掘 • 什么是Web内容挖掘 • 从网络的内容、数据、文档中发现有用信息的过程。 • 网络信息资源由文本、图象、音频、视频等数据组成,因而Web内容挖掘是一种多媒体数据挖掘。 • 挖掘策略 • 利用搜索引擎技术直接挖掘文档的内容; • 在搜索引擎等工具处理基础上做进一步的处理,以便获得更为精确和有用的信息。 • 面临问题 • 挖掘算法效率和可扩展性问题 • 信息遗漏及噪声数据的处理问题 • 私有数据保护问题 • 数据安全问题等

  19. Web内容挖掘 • 主要应用研究内容 • 文本摘要 • 文本分类 • 文本聚类 • 关联分析 • 分布分析 • 趋势预测

  20. Web内容挖掘 • 文本摘要 • 从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。 • 有篇首截取法、上下文截抽取法、论题句抽取法、仿人法等。

  21. Web内容挖掘 • 文本分类 • 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。 • Yahoo!采用人工分类,大大影响了索引的页面数目。 • 利用自动文本分类技术可以对大量文档进行快速、有效分类,大型搜索引擎都采用自动分类技术。

  22. Web内容挖掘 • 文本聚类 • 文本聚类是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。 • “聚类假设” • 与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。 • 意义 • 利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。

  23. Web内容挖掘 • 关联分析 • 从文档集合中找出不同词语之间的关系。 • 实例: • 有人提出一种算法,可以从大量文档中发现一对词语同时出现的模式,利用该算法可在Web上寻找作者和书名的出现模式,从而发现了若干本在Amazon网站上找不到的新书籍。 • 以Web上的电影介绍作为测试文档,通过使用OEM模型从页面中抽取词语,进而得到一些关于电影名称、导演、演员、编剧的出现模式。 • 从科技论文中挖掘主题词演变模式,发现学科发展趋势。

  24. Web内容挖掘 • 分布分析 • 指通过对文档的分析,得到特定数据在某个历史时刻的分布情况。 • 实例: • Feldman等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布情况。

  25. Web内容挖掘 • 趋势预测 • 指通过对文档的分析,得到特定数据将来的取值趋势。 • 实例 • Wuthrich等人通过分析Web上出版的权威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果。

  26. Web结构挖掘 • 挖掘对象 • 网站中超级链接结构之间的关系,它体现了文档之间的逻辑关系,与文档所处位置无关。 • 目标 • 找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对Web页面重新分类,用于寻找相似的网站,评价网站社会关系及其对应用影响。

  27. Web结构挖掘 • Web结构图 G=(V,E) • V是页面的集合,构成图的顶点; • E是页面之间的超链集合,构成图的边。 • 图形中,不仅顶点(页面)包含主题信息,而且,边(超链)也包含了大量潜在的语义,对它的分析构成了Web挖掘的重要内容,即结构挖掘。

  28. Web结构挖掘 • 结构挖掘的主要方法 • PageRank • 一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面 • HITS • 衡量网页重要性有两个要素(ranking):权威级别(依赖于指向它的页面)、中心级别(依赖于它指向别人的页面) • ARC • 基于主题相关性的挖掘,同时考虑锚点文字。 • CLEVER • 在计算网页权威度与中心度时,保留相关节点,裁剪无关节点。

  29. Web使用挖掘 • 挖掘对象 • 用户网络交互过程中产生的数据 • 如服务器访问记录、日志记录、用户对话或交易信息、用户提问式等。 • 挖掘目的 • 帮助人们理解用户行为和Web结构之间得关联; • 指导网站建设,改善网站服务效果。 • 挖掘方法 • 一般访问模式跟踪 • 通过分析Web访问日志来理解访问倾向,获得Web结构信息及资源提供者分组情况。 • 定制使用跟踪 • 分析个人倾向,以便为每个用户定制符合其个人特色的web站点、资源以及信息呈现方式等。

  30. 一个用户访问网络路线实例

  31. 网络信息挖掘 网络内容挖掘 网络结构挖掘 网络使用挖掘 信息检索观点 数据库观点 数据形式 非结构化、半结构化 半结构化、数据库形式的网站 链接结构 交互形式 主要数据 文本文档、超文本文档 超文本文档 链接结构 服务器日志记录 浏览器日志记录 表 示 Bag of words、n-grams、词、短语、概念或实体、关系型数据 边界标志图(OEM)、关系型数据 图形 关系型表、图形 方 法 TFIDF和变体、机器学习、统计学(包括自然语言处理) Proprietary算法、ILP、(修改后)的关联规则 Proprietary算法 机器学习、统计学、(修改后)的关联规则 应 用 归类、聚类、发掘抽取规则、发掘文本模式、建立模式 发掘高频的子结构、发掘网站体系结构 归类、聚类 站点建设、改进与管理、营销、建立用户模式

  32. 1网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

  33. 数据挖掘应用 • 在金融领域中的应用 • 观察金融市场的变化趋势,进行贷款偿付预测和客户信用分析; • 对用户群体进行识别和目标市场分析; • 左图是Altos做的实时价格指数与房价指数的关联分析,可为房地产、金融机构提供参考。

  34. 数据挖掘应用 • 在电信业中的应用 • 通过分析用户对电信服务的使用模式,划分用户群,使营销策略更有针对性; • 采用多维分析、聚类分析和孤立点分析等方法识别异常模式,追踪盗用行为; • 分析呼叫数据来规划和优化网络。

  35. 数据挖掘应用 • 在销售领域的应用 • 有助于划分顾客群体,更精确地挑选潜在的顾客; • 识别顾客购买行为,发现顾客购买模式和趋势,通过关联分析更好地进行货架摆设; • 改进服务质量,获得更好的顾客忠诚度和满意程度。

  36. 数据挖掘应用 • 在医学中的应用 • DNA分析 • 利用数据挖掘技术可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传研究中的路径分析等。

  37. 数据挖掘应用 • 在搜索引擎中的应用 • 对网页Links信息的挖掘,提高采集效率 • 通过对网页内容挖掘,实现网页的聚类、分类、自动标引 • 通过用户提问及操作历史记录分析,跟踪用户需求模型,提高用户的检索效果

  38. 情报研究—Google Trends

  39. 情报研究—CNKI学术趋势

  40. 数据挖掘应用 • 其他应用 • 银行:交叉销售分析 • 百货公司/超市:购物篮分析(关联规则) • 保险:交叉销售与客户流失原因分析 • 信用卡:欺诈探测 • 电子商务:网站日志分析 • 税务部门:偷漏税行为探测 • 警察机关:犯罪行为分析 • …

  41. 1网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

  42. Net percerptions • Net Perceotion公司的主要产品。它采用了一个叫做“实时建议”的技术,让它的产品对象(主要是网站)能够根据用户以往的浏览行为,找出与之相类似的行为,从而预测该用户后续的浏览操作,为用户提供个性化的浏览建议。 • 由于是实时运行的,随着浏览量的增加,它会变得越来越“聪明”。

  43. Accrue公司AccrueInsight 和Accrue Hit List • Accrue Insight通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期顾客关系。 • Accrue Hit List是一个功能强大的Web报表分析工具,主要运用于市场分析、信息采集等方面。

  44. 1 网络信息挖掘 1.1数据挖掘概述 1.2Web挖掘方法 1.3Web挖掘应用 1.4Web数据挖掘系统 1.5发展趋势

  45. 发展趋势 • 未来研究重点 • Web数据挖掘的内在机制研究及其实现 • Web知识库的动态维护、更新 • 半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法 • 研究专门用于知识发现的数据挖掘语言及其标准化 • 关联规则和序列模式的应用研究

  46. 2 信息抽取 2.1信息抽取概述 2.2与IE相关的研究活动 2.3信息抽取类型 2.4信息抽取系统介绍 2.5信息抽取系统设计 2.6信息抽取应用

  47. General Surgical left open capsulotomy mastectomy removal of her prosthesis today bonylymphoedema left arm shooting pain in the direction of ulna nerve local, regional or distant pain recurrence pain clinic management pain clinic pain clinic management a year’s time clinic no signs of recurrence at this time 从文本中抽取关键信息 ##### ####### NHS TRUST - PATIENT CASE NOTE ########:######### ####### DOB: 1944 CLEF-RMH-Entry-Key: 52A4F6DB2B46E AB 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. XXXXXXXXX could be seen in the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time. 5213A4F612F1 根据模版或相关的知识资源标识出重要的信息及其相关关系 Interventions Problems Problem Site Locations Time

  48. left open capsulotomy General Surgical General Surgical management left open capsulotomy management mastectomy left open capsulotomy mastectomy mastectomy removal of her prosthesis removal of her prosthesis today removal of her prosthesis today bonylymphoedema no signs of recurrence bonylymphoedema bonylymphoedema left arm left arm pain shooting pain in the recurrence shooting pain in the direction of ulna nerve shooting pain in the direction of ulna nerve local, regional or distant direction of ulna nerve local, regional or distant pain recurrence pain local, regional or distant recurrence pain clinic management left arm pain clinic pain clinic pain clinic management General Surgical pain clinic pain clinic 放射报告、病理学报告,或 其它叙述性报告 pain clinic pain clinic pain clinic management clinic a year’s time today management clinic a year’s time a year’s time clinic no signs of recurrence no signs of recurrence at this time at this time at this time 来自于药品或实验中的信息 从文本中抽取关键信息 收集抽取出的信息… 也可跨越多个文档 Interventions Problems Problem Site Locations Time

  49. left open capsulotomy management Interventions mastectomy removal of her prosthesis no signs of recurrence evidence recurrence Problems bonylymphoedema pain shooting pain in the direction of ulna nerve Problem Site local, regional or distant left arm General Surgical pain clinic Locations pain clinic pain clinic today Time a year’s time at this time 形成病历 自动实现相关事件的链接? What happened & why ? What was done & why ? mastectomy caused_by bonylymphoedema

  50. 只有通过许可的人才可看到人名等信息 Hospital EPR EPR Drugs Refer Tools Help CLEF-RMH-Entry-Key: 52A4F6DB2B46EFemale 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinibMeds: unclear CLEF-RMH-Entry-Key: 52A4F6DB2B46EFemale 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinibMeds: unclear Staging CT Protocol 354 Drugs Appt Results Letters BP 在首页上形成一个摘要 Haem Chem Immu Bact Xray ECG USS 病历摘要 形成一个非常简短的病历摘要 CLEF-RMH-Entry-Key: 52A4F6DB2B46E Maria Sklodowska-Curie 12.10.20 Coryza: chest NAD: reassure13.10.20 URTI: wheezy: amoxycillin20.10.20 Anxiety: lump under arm: staging scan24.10.21 PEFR : 300 :10.11.21 PEFR : 400: CXR requested12.11.21 CXR Basal Consolidation: : erythromycin27.11.21 : Chest clear :07.03.30 Depression: recurrence: Paroxetine19.04.30 WCC OK01.06.31 : : rpt Rx paroxetine18.10.31 Pain L arm: : coproxamol03.03.31 Viral URTI: PEFR 350: salbutamol04.03.34 WCCAbnormal : :30.05.34 : BP, ECG NAD :

More Related