790 likes | 989 Views
信息抽取 (Information Extraction) 及其在数字图书馆中的应用研究. 中国科学院国家科学图书馆 张智雄. 北京 2006. 8.15. 主要内容. 什么是信息抽取 (IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发. 1. 什么是信息抽取 (IE). 先从 CLEF 项目说起 A Co-operative Clinical E-Science Framework (CLEF)
E N D
信息抽取(Information Extraction)及其在数字图书馆中的应用研究 中国科学院国家科学图书馆 张智雄 北京 2006.8.15
主要内容 • 什么是信息抽取(IE) • 信息抽取相关研究活动 • 信息抽取的层次和类型 • 信息抽取系统及其应用 • 数字图书馆中信息抽取技术的应用前景 • 中文信息抽取系统的开发
1.什么是信息抽取(IE) • 先从CLEF项目说起 • A Co-operative Clinical E-Science Framework (CLEF) • Funded by the UK Medical Research Council • Descriptive information: • Clinical histories • radiology reports • pathology reports • annotations on genomic and image databases • technical literature • Web based resources
Knowledgeenrichment Knowledgeenrichment Hazardmonitoring Hazardmonitoring Integrate &Aggregate Integrate &Aggregate PseudonymisedRepository PseudonymisedRepository ExtractInformation ExtractInformation Ethical oversightcommittee Ethical oversightcommittee Depersonalise Depersonalise Chronicle Chronicle PrivacyEnhancementTechnologies PrivacyEnhancementTechnologies Summarise & FormulateQueries Summarise & FormulateQueries Construct‘Chronicle’ Construct‘Chronicle’ Pseudonymise In Hospital Pseudonymise In Hospital Individual Summaries & Queries Individual Summaries & Queries Reidentify By Hospital Reidentify By Hospital CLEF Architecture Outline Data Access Cycle Data Acquisition Cycle
临床报告 ROYAL MARSDEN NHS TRUST - PATIENT CASE NOTE 324A621F:MRS Dorothy Smith DOB: 12/05/44 21, Park Crescent Basingstoke B12 Q13 16 Dec 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of Mr Peterson. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. Mrs Smith could be seen in the pain clinic at the Marsden but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at Basingstoke as I am sure Dotty could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time. Mr Thomas Partridge
General Surgical left open capsulotomy mastectomy removal of her prosthesis today bonylymphoedema left arm shooting pain in the direction of ulna nerve local, regional or distant pain recurrence pain clinic management pain clinic pain clinic management a year’s time clinic no signs of recurrence at this time 从文本中实现关键信息抽取 ##### ####### NHS TRUST - PATIENT CASE NOTE ########:######### ####### DOB: 1944 CLEF-RMH-Entry-Key: 52A4F6DB2B46E AB 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. XXXXXXXXX could be seen in the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time. 5213A4F612F1 根据模版或相关的知识资源标识出重要的信息及其相关关系 Interventions Problems Problem Site Locations Time
left open capsulotomy General Surgical General Surgical management left open capsulotomy management mastectomy left open capsulotomy mastectomy mastectomy removal of her prosthesis removal of her prosthesis today removal of her prosthesis today bonylymphoedema no signs of recurrence bonylymphoedema bonylymphoedema left arm left arm pain shooting pain in the recurrence shooting pain in the direction of ulna nerve shooting pain in the direction of ulna nerve local, regional or distant direction of ulna nerve local, regional or distant pain recurrence pain local, regional or distant recurrence pain clinic management left arm pain clinic pain clinic pain clinic management General Surgical pain clinic pain clinic 放射报告、病理学报告,或 其它叙述性报告 pain clinic pain clinic pain clinic management clinic a year’s time today management clinic a year’s time a year’s time clinic no signs of recurrence no signs of recurrence at this time at this time at this time 来自于药品或实验中的信息 从文本中实现关键信息抽取 收集抽取出的信息… 也可跨越多个文档 Interventions Problems Problem Site Locations Time
left open capsulotomy management Interventions mastectomy removal of her prosthesis no signs of recurrence evidence recurrence Problems bonylymphoedema pain shooting pain in the direction of ulna nerve Problem Site local, regional or distant left arm General Surgical pain clinic Locations pain clinic pain clinic today Time a year’s time at this time 形成病历 自动实现相关事件的链接? What happened & why ? What was done & why ? mastectomy caused_by bonylymphoedema
只有通过许可的人才可看到人名等信息 Hospital EPR EPR Drugs Refer Tools Help CLEF-RMH-Entry-Key: 52A4F6DB2B46EFemale 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinibMeds: unclear CLEF-RMH-Entry-Key: 52A4F6DB2B46EFemale 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinibMeds: unclear Staging CT Protocol 354 Drugs Appt Results Letters BP 在首页上形成一个摘要 Haem Chem Immu Bact Xray ECG USS 病历摘要 形成一个非常简短的病历摘要 CLEF-RMH-Entry-Key: 52A4F6DB2B46E Maria Sklodowska-Curie 12.10.20 Coryza: chest NAD: reassure13.10.20 URTI: wheezy: amoxycillin20.10.20 Anxiety: lump under arm: staging scan24.10.21 PEFR : 300 :10.11.21 PEFR : 400: CXR requested12.11.21 CXR Basal Consolidation: : erythromycin27.11.21 : Chest clear :07.03.30 Depression: recurrence: Paroxetine19.04.30 WCC OK01.06.31 : : rpt Rx paroxetine18.10.31 Pain L arm: : coproxamol03.03.31 Viral URTI: PEFR 350: salbutamol04.03.34 WCCAbnormal : :30.05.34 : BP, ECG NAD :
1.什么是信息抽取(IE) • 针对目前的信息过载和数据泛滥的情况 • 自然语言处理(NLP) • 人类语言技术(HLT) • 计算机语言学(CL) • 知识工程(KE) • 知识管理(KM) • 语义网络(Semantic Web) • 智能代理(Agent Based Computing) • Web智能(Web Intelligence)
1.什么是信息抽取(IE) • 欧洲美发达国家提出了“知识技术”(Knowledge Technologies)这一概念 • 知识获取 • 知识建模 • 知识表示和可视化 • 知识解析和共享 • 知识重用 • 知识检索 • 知识的出版和分发 • 知识维护 • ……
1.什么是信息抽取(IE) • 两条研究路线 • 基于KDD和Data Mining的线路。从结构化的数据(如数据库中的数据)中发现新的知识。 • 基于自然语言处理(NLP)和文本挖掘(Text Mining)的线路。从非结构化或半结构化的数据(如Word、HTML、或PDF文件)发现新知识。“从大量的非结构化的数据中标识并抽取出事件的趋势和模型,并它们转换成为有用并可理解的信息”
集两种线路于一体的数字图书馆知识发现和知识表现的解决方案集两种线路于一体的数字图书馆知识发现和知识表现的解决方案
1.什么是信息抽取(IE)? • 信息抽取(Information Extraction):目前日渐成熟,并得到越来越多人关注的文本挖掘方式
1.什么是信息抽取(IE)? • Hamish Cunningham • Information Extraction (IE) is a technology based on analysing natural language in order to extract snippets of information. • 信息抽取是一个输入/输出过程。 • 输入:未知文本信息 • 输出:固定格式、无二意性数据(信息) • 这些被抽取出来的数据可以 • 直接显示给用户 • 存储于数据库或电子表格中以供随后分析 • 被用于索引系统,以便于将来进行检索访问
1.什么是信息抽取(IE)? • Douglas E. Appelt等 • 信息检索和信息抽取对比 • 信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户 • 而信息抽取不是仅仅指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户
1.什么是信息抽取(IE)? • 继续对信息检索和信息抽取对比 • 信息检索:获取一个与检索内容相关的文章的子集,用户得分析文章内容
1.什么是信息抽取(IE)? • 继续对信息检索和信息抽取对比 • 信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。
1.什么是信息抽取(IE)? • 信息检索和信息抽取对比总结 • 功能不同。 如前所述 • 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 • 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。
主要内容 • 什么是信息抽取(IE) • 信息抽取相关研究活动 • 信息抽取的层次和类型 • 信息抽取系统及其应用 • 数字图书馆中IE的应用前景 • 中文信息抽取系统的开发
2.信息抽取相关研究活动 • IE的发展与以下研究活动密切相关: • MUC(Message Understanding for Comprehension) • MET(Multilingual Entity Task Evaluation) • ACE(Automatic Content Extraction) • DUC(Document Understanding Conferences)
2.1MUC • MUC之于IE,正如TREC之于IR • 也有人们认为MUC是Message Understanding Conference或Message Understanding Competition • 20世纪80年代未由美国国防部的DARPA(Defense Advanced Research Projects Agency) 发起
2.1MUC • MUC唯一任务就是“信息抽取”:对自由文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写到相应的数据模板中 • 总共进行7次: • 最初的MUC 1-2关注的是对电子邮件信息的抽取 • 20世纪90年代之后的MUC 3-7主要关注对新闻文章的抽取,主题涉及恐怖活动、国际风险投资、企业成功管理经验 • MUC对于信息抽取的研究内容、信息抽取方式的分类、信息抽取系统的评价等都起到重要的促进作用
2.2MET • MET: Multilingual Entity Task Evaluation • 也是DARPA发起的一个测评项目。 • MET的主要是对日语、汉语以及西班牙语等多语种新闻文献进行命名实体抽取 • MET-1和MET-2测试分别于1996年和1998年进行
2.3ACE • ACE (Automatic Content Extraction) • 这一项目由美国国家安全局(NSA),美国商务部技术管理部门(NIST),以及中央情报局(CIA)一同主管。 • 关注三种信息的自动化内容抽取: • 网络上的在线新闻、 • 通过ASR(自动语音识别的)得到的广播新闻 • 以及通过OCR(光学字符识别)得到的报纸新闻, • 两个目的: • 希望在自动化内容抽取基础之上,为数据挖掘、链接分析、自动摘要等打下基础 • 通过将相应的信息提供给相应的分析师,以提高信息分析的能力。
2.3ACE • 项目为期5年 • ACE Phase-1(1999.7-2000.12)优先发展的是实体探测及追踪(EDT, Entity Detection and Tracking) 。 • ACE Phase2(2001-现在)被称为EDT + RDC。其中RDC为Relation Detection and Characterization。ACE第二阶段希望在第一阶段实体探测的基础之上,引入了对实体关系的评测,需要能够将标识出的实体之间的关系揭示出来。
2.4 DUC • DUC,Document Understanding Conferences • 是在DARPA的TIDES (Translingual Information Detection, Extraction, and Summarization program)基础之上发起的一个对“文本概括”进行研究测评的项目 • 起于2000年,已经进行了DUC 01-06,DUC 2007也在规划之中 • 目前,系统测评会议由美国商务部技术管理部门NIST来管理。
主要内容 • 什么是信息抽取(IE) • 信息抽取相关研究活动 • 信息抽取的层次和类型 • 信息抽取系统及其应用 • 数字图书馆中信息抽取技术的应用前景 • 中文信息抽取系统的开发
3.信息抽取的层次和类型 • MUC根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型 • NE。命名实体识别(Named Entity Recognition) • MET。多语种实体识别任务(Multi-lingual Entity Task)信息抽取 • TE。模板元素(Template Element)信息抽取 • CO。参照(Coreference)信息抽取 • TR。模板关系(Template Relation)信息抽取。 • ST。情节模板(Scenario Template)信息抽取。
3.1 NE • NE(Named Entity Recognition)命名实体识别 • 最为基础的类型,此类信息抽取需要系统能够识别出实体名,并将相应的实体名进行归类。 • MUC测评识别并抽取出人名,组织名,日期,时间,地点,以及某种类型的数字表达式(如货币数量,百分数),并在文本中对这些信息进行标注。 • NE具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统,NE都是其中一个很重要的组件。
3.1NE • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. • NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets"
3.2 MET • MET(Multi-lingual Entity Task)多语种实体识别任务信息抽取 • MET除了能够对英文命名实体进行识别之外,还需要能够对多语种的命名实体进行识别,例如可以对中文、日文或西班牙文进行命名实体识别。
3.3 TE • TE模板元素(Template Element)信息抽取 • TE信息抽取将特定的描述信息与实体联系起来。它需要从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象
3.3 TE • 在MUC评测中,TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的小型的属性模板之中。 • 例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。
3.3 TE • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. • NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" • TE: the rocket is "shiny red" and “Dr. Head's brainchild”.
3.4 CO • CO 参照(Co-reference)信息抽取 • CO涉及在进行NE或TE任务时,从文本中标识出对同一实体的不同表达方式。 • 例如 • 连接某同一实体的不同称谓。Tony Blair,The premier minister • 将某一名词和其相应的代名词进行连接。
3.4 CO • 在MUC中,CO之所以得到重视,是因为它能够为创建TE和ST(见下文)打下基础。 • CO可以将散布在文本中不同地方的同一实体的描述信息连接起来。 • 分析 • 实体在文本中不同地方出现的情况 • 实体在不同场合与其它实体之间的关系 有助于情节信息的抽取。
3.4 CO • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. • NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" • TE: the rocket is "shiny red" and Head's "brainchild". • CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same
3.5 TR • TR模板关系(Template Relation) • TR需要在TE的基础之上标识出模板元素之间的关系。 • TR是MUC-7定义的一项新任务,需要抽取模板元素之间的相互关系。 • 例如: • 职员和组织之间的关系(employee_of) • 产品和生产企业之间的关系(product_of) • 以及公司和地区之间的关系(location_of) • etc
3.5 TR • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. • NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" • CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same • TE: the rocket is "shiny red" and Head's "brainchild". • TR: Dr. Head works for We Build Rockets Inc.
3.6 ST • ST 情节模板(Scenario Template) • ST抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联。 • ST需要标识出特定事件及事件的相关属性,包括将事件中的各个实体填充到事件的相应角色中,通过各个对象之间的关系,能够还原出整个事件的“原型”。
3.6 ST • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. • NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" • CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same • TE: the rocket is "shiny red" and Head's "brainchild". • TR: Dr. Head works for We Build Rockets Inc. • ST: a rocket launching event occurred with the various participants.
主要内容 • 什么是信息抽取(IE) • 信息抽取相关研究活动 • 信息抽取的层次和类型 • 信息抽取系统及其应用 • 数字图书馆中IE的应用前景 • 中文信息抽取系统的开发
4 信息抽取系统及其应用 • GATE
4.1 GATE • GATE (General Architecture for Text Engineering) • 1995开始,University of Sheffield • 纯Java语言开发的免费开源软件 • 编码方式是Unicode • GATE支持的文档类型包括XML、 RTF、Email、HTML、SGML以及纯文本文件
4.1 GATE • Gate项目组认为,典型的信息抽取系统的应当包括三大过程 • 预处理过程 • 命名实体探测过程 • 事件探测过程。
预处理过程 • 其中预处理过程并不实现信息抽取,但它是信息抽取的前提。 • 文本格式的检查(Format Detection) • 特征标记(Tokenisation) • 分词 (Word Segmentation) • 句法分割(Sentence Splitting) • 语法标记(POS tagging) • 通过这些预处理,可以将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式
命名实体探测 • 命名实体探测过程实现对命名实体的探测,并通过参照实现实体之间的联系。 • 在这一过程中,通常需要借助辞典来实现人物、组织、地点、时间等命名实体的探测,辞典中也可能会包括一些相应的指示词(如Ltd.提示公司名称)用以指示相应的实体内容。 • 一些系统还具有语义标记的功能。如ANNIE系统,通过JAPE(Java Annotations Pattern Engine) 书写的规则,能够对实体进行更深入的语义标注。
事件探测 • 事件探测过程是在命名实体探测过程基础之上实施的一个过程,它抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联,构造出事件的概貌。