生物医学文本挖掘前沿 - 新发现

生物医学文本挖掘前沿-新发现 Frontiers of biomedical text mining: current progress WL

发表期刊&作者简介 Brief Bioinform. 2007 September ; 8(5): 358–375. • Pierre Zweigenbaum 法国LIMSI/ CNRS的高级研究员 (机械和工程科学的语言，信息和代理集团计算机科学实验室/法国国家科学研究中心) 他致力于自然语言处理和其在生物医学领域的应用。 • Dina Demner-Fushman NLM 国家生物医学通讯中心通信工程部常任科学家她利用信息检索的NLP和生物医学领域信息检索研究临床决策支持、临床问答系统。 • Hong Yu 威斯康星密尔沃基大学计算机科学和卫生科学系助理教授，她的研究多关注于多媒体信息检索，话语分析和问答系统。 • Kevin B. Cohen 科罗拉多大学医学中心校区，领导计算药理学方面生物医学文本挖掘团队。

文本挖掘的主要技术和应用 NER IE IR 问答系统非文本数据处理知识发现

文本挖掘（TM） • 在不同程度上，大部分生物医学TM研究依赖自然语言处理方法和工具。“BioNLP” • TM有广义和狭义之分：狭义：TM系统必须返回文章中没有明确表明的知识。广义：任何从文章中抽取信息的系统，或者具有抽取信息所必需先决条件功能的系统。包括一系列的应用类型，从命名实体识别到基于文献的知识发现，以及介于两者之间的许多过程。

结构框架 IE—初始工序识别生物实体的模块或文章中的概念 NER 文本抽取事实关系抽取检测出生物实体之间的关系简明确定和表明文献最重要方面，节省阅读时间摘要技术含有丰富信息的非文本信息如表格和图片处理非文本材料超信息抽取狭义TM 为形成的问题提供精确的答案问答系统真正的TM不仅给出文章中存在的直接事实，还有助于揭示生物学实体间的间接关系知识发现对系统和结果质量的评价有助于评估产生数据的可信度有注释文本集&大规模评价评价&面向用户系统（TM的最重要的必要条件）对用户需求的实际掌握可引领技术发展理解用户需求

超信息抽取——BIE • 该技术超出IE领域，满足最严格的文本挖掘定义，本质上是处理文本以外数据类型的系统。 • IE系统的输入——单一句型 BIE系统的输入——全文本：至少是摘要，有时是全文期刊论文，很少情况是文献集（如后面讨论的多文档摘要）。 • BIE系统的输出——不限制实体间关系的简单的语句。

1 摘要技术 2 处理非文本材料 3 问答系统 4 知识发现超信息抽取

摘要技术 • 传统的‘一般’摘要对摘要的预期用途不作任何假设 • 自动文本摘要技术的目的：确定一个或多个文献最重要的方面和简洁连贯地展现这些方面。 • 自动文本摘要技术区分指示摘要（帮助读者决定他们是否应阅读感兴趣的摘要文档）和详细摘要（从摘要文档中为读者实际提供资料） • 定向/聚焦的摘要旨在满足独特信息需求，往往以查询方式表现 “黄金信息”

Ling等人：生物学文献的特征结构性摘要 摘要技术 1 2 4 3 结合标记抽取信息刻画基因六个方面填充摘要结构评价 1：六个方面：(i)基因产物，(ii)表达的位置，(iii)序列信息，(iv)野生型功能和表型信息，（v）突变表型和（vi）遗传相互作用。 2：检索相关MEDLINE摘要和抽取包含与靶基因某一特定方面有关信息的句子 3：为了结合治疗结果有关，最能提供信息的句子中的证据，评分句型将种类相关性，文献相关性和摘要中句子的位置结合标记。 4：这一抽取方法使确定10个随机选择基因的测试集的上述六个方面查准率达到50%-70%。

Lu等人：摘要技术与GO注释结合 摘要技术 2003年文本信息检索会议(TREC, Text REtrieval Conference)基因组领域包括GeneRIFs[基因导入功能参考（GeneRIF用于Entre数据库中描述的基因）]预测的任务。 Lu等人提出完成这项任务采用摘要技术与GO（基因本体，gene ontology）注释结合，GO注释与现有的Entrez基因条目有关。作者将这一方法进一步发展到现实任务摘要技术的创新应用：测定低质量和过时的GeneRIFs摘要修订方法，这一任务准确率达到89%，召回率达到79%，并且在质量上比其他方法产生有效的GeneRIFs。

Baumgartner等人：句型选择子任务 摘要技术将摘要方法应用于蛋白-蛋白间相互作用的BioCreative2006句型选择子任务。该查找描述蛋白-蛋白相互作用最好的句型的抽取摘要方法达到了19%的准确率，是这一挑战中表现最好的；位于第二的系统的分数为6%。

Névéol等人：自动生成的建议性主题词 摘要技术与摘要相关的任务：描述采用Mesh主题词的文本的主要主题，通过人工索引medline数据库完成的。 Névéol等人通过改进自动生成的建议性主题词来推动这一手工处理过程； NLM索引者在索引过程中采用此方法。这一工作的重点是将Mesh叙词（descriptors）和限定词（qualifiers）的组合分配给一篇引文，而不只是分配单一的Mesh主标目。

文献摘要的分类 摘要技术摘要技术的另一个应用：将文献分类到一系列预先确定的分类（例如GO编码）中。 Stoica和Hearst成功为基因分配GO编码，他们通过从生物医学文本中查找分配给靶基因的同源类似物的GO编码来分配GO术语。 Fyshe和Szafron针对蛋白质的亚细胞定位对文献摘要进行分类，利用GO作为一个附加的信息资源。文献摘要的分类也是Höglund等人的预测亚细胞位置方法一个组成部分。

摘要技术——展望 • 生物学文本摘要技术的研究是稳定的持续进行的 • 应用于现实 • 需要更多的任务驱动性摘要的研究更多的一致性多文档生成的摘要技术研究

处理非文本材料（Processing non-textual material） • 目前现状：大多数关于BM语言处理系统仅应用在文本信息方面，而不提供其他重要数据，如图像（例如，图表）。 • 新兴研究：应用图像处理以及NLP的方法来分析图形图像及与其关联的文本，或考虑特殊形式的文本，如化学化合物。

处理非文本材料 • 第一个面向BM文献中图像的系统：亚细胞定位图像搜索（SLIF）系统 • SLIF提取并分析特定类型的图像，即来自BM全文文章的荧光显微镜图像。 • 利用几何力矩，文字的处理和形态学图像处理提取BM全文期刊文章的所有图形图像，识别这些描绘荧光显微镜图像，然后确定捕捉亚细胞位置数字特征（即，计算SLF6特征和将输出结果转换为单一的分数）。

处理非文本材料——各个方法的评价 • 图像标题提取法的准确率/召回率是98/77%。 • 通过寻找水平和垂直的空白部分来进行递归细分，从而把图像分解成网格。分解法的准确率为83%，召回率为60%。 • 利用以灰度柱状图的为特点的k-近邻分类算法来识别荧光显微镜图，这一方法查准率达到97%，查全率为92%。 • 多细胞图像分割成单细胞图像。由此产生的二进制图像包含的对象为相对应的细胞。此算法查准率/查全率达到了62/32%。 • 所有的方法都证明了它们在实验的准备，细胞类型和显微镜方法中产生差异以及出版时图像交替的稳健性。

Rafkind 等人：自动分类图形图像入5类 处理非文本材料定义了在BM全文文章出现的5个类别的图像，并采用监督的机器学习算法的支持向量机（SVMs）自动分类图形图像进入这些类别。对于给定的554张附注释的图形图像：当只应用图像特征（亮度和基于边缘特征）时，分类器的F-值达到50.74%，当应用文本特征（标题中的词袋和多元语法）时，F-值达到68.54%。当融合图像特征和文字特征时，结合分类算法的F-值达到73.66%。

Shatkay等人：层次图像分类方案 处理非文本材料图形型：条形图，线形图和其他图表图形图像实验型：凝胶电泳，荧光显微镜和其他显微镜其他类型共有1600有注释的图形图像，利用SVM分类器来区分图形型和实验型图像，准确率达到95 ％；而能够区分三种类型的实验型图像的准确性为93 ％。 46个图像特征（如柱状图和边缘方向柱状图）用于分类任务。他们发现，在文本分类任务可以受益于将这些图像的特征的综合。

Yu ：摘要句子概括图像内容 处理非文本材料图像提供重要证据，但不参照相关文本常无法理解。为此，Yu 审查了三种相关文字：图片标题，摘要中出现的相关句子和全文主体中出现的相关的句子得出结论认为，摘要中的句子可以用来概括图像内容，其他相关的文本描述通常只描述实验程序而不包括实验的指征和结论。

Yu和Lee：面向用户的BioEx 处理非文本材料该系统将图像和摘要句子的关系可视化。BioEx可以通过相关的摘要句子来获得图像。他们邀请那些对文章进行图像注释的119为科学家来评价BioEx界面，与其他两个无法通过摘要句子来获得图像基础界面进行比较。87.8％的科学家更倾向于BioEx用户界面。图像和摘要句子的关系通过基于摘要句子和图像标题单词等级相似性的层次聚类算法实现的。准确率达到72％，相应的召回率为33％。

Rhodes等人：分子相似性搜索引擎 处理非文本材料化合物与图像相关的描述是非线性性质的。 Rhodes等人开发了分子相似性搜索引擎，以区分专利语料库中类似的化合物。该系统首先在文本中识别化学名称，将这些名称转换为相应的复合结构，然后为每个结构分配一个IUPAC（国际理论和应用化学联合会）的国际化学标识符（InChI）代码。从InChI代码和基于文本的向量空间模型中抽取特征，然后应用到索引和检索相关的化合物。评价发现，相似性搜索优于基于文本的搜索。

生物学领域以外的图像处理系统 处理非文本材料主要开发从数据库中检索医学图像的系统。 ImageCLEFmed：医学图像检索 IPAL（Image Processing and Application Laboratory，图像应用和处理实验室，Image & Pervasive Access Lab）：自动医学检索达到了最高平均准确率（MAP：0.3095）。 IPAL融合了UMLS作为知识基础，并发现它增强了以文本为基础和可视化检索。

问答系统（Question answering，QA） • 问答系统：高精度的信息检索，而不是从庞大的全文资料库中得到一个文献列表，QA试图对问题提供一个简短的，具体的答案，并且通过提供支持信息和链接原始资料文献把他们放入到上下文中。 • QA近来主要应用在一些限定的领域中。临床领域中较早出现并相对活跃，而基因组学只是最近才解决的。 • 问答系统一般包含问题分析，查询制定，信息检索，答案提取，摘要和显示。

问答系统—相关研究 对于BM领域中的QA：Zweigenbaum 是最易获得的 Jacquemart和Zweigenbaum ：在法国进行了一项临床问答系统的可行性研究 Huang等人：映射出基于问题/病人，治疗，比较治疗，治疗结果（PICO）的临床问题 Demner-Fushman和Lin ：随后识别并提炼PICO文本来回答临床问题；他们发现具有领域特异性的知识能够增强信息检索 Yu等人实现了医疗问答系统，并比较问答系统与信息检索系统的实用性

基因组学领域的问答系统 问答系统 TREC/Genomics Track（基因组追踪）已经成为基因组学领域的问答系统的驱动力量。基因组追踪单任务注重于为生物学问题检索出特定的短文（两三个短句）（例如：PrnP在疯牛病中的作用？）。 31个团队参与了基因组追踪并得到以下平均准确度：文献检索0.0198–0.5439 (中位数: 0.3083) 段落检索0.0007–0.1486 (中位数: 0.0345) 检索0.011–0.4411 (中位数：0.1581)

提高问答系统的性能 问答系统最好的执行系统综合了基于规则的字典和统计学方法，以识别主题词的变化，同义词，上位词和下位词以及其他相关的主题词，发现他们大大地加强了问答系统的性能。另一个高效能系统结合了4个独立信息检索系统的结果（Essie，EasyIR，SMART和Theme），并发现融合大大优于独立的系统。许多团队已经研究了高级信息检索模型： Jiang等人：语言模型和相关性反馈 Caporaso等人：探讨了潜在语义分析 Divoli等人：考虑了问题和全文文献的结构 Haiqing Zheng(复旦大学，计算机科学和工程系)等人：在句法树结状构的基础上选择与问题相似句子，并发现浅层句法分析提高答案抽取的性能。这些模型没有提高段落检索性能

结构框架 IE—初始工序识别生物实体的模块或文章中的概念 NER 文本抽取事实关系抽取检测出生物实体之间的关系简明确定和表明文献最重要方面，节省阅读时间摘要技术含有丰富信息的非文本信息如表格和图片处理非文本材料超信息抽取为形成的问题提供精确的答案问答系统真正的TM不仅给出文章中存在的直接事实，还有助于揭示生物学实体间的间接关系知识发现对系统和结果质量的评价有助于评估产生数据的可信度有注释文本集&大规模评价评价&面向用户系统（TM的最重要的必要条件）对用户需求的实际掌握可引领技术发展理解用户需求

评价&面向用户系统 理解用户需求有注释文本集&大规模评价

评价&面向用户系统(ASSESSMENT AND USER-FOCUSED SYSTEMS) • 近年来，BMTM团队在广义上的TM系统的大规模比较评价中的进步包括：大批注释文本资源（“语料库”）的发展进行共享任务的基础结构。 • 随着对比较系统评价的关注的增加，近来一些工作偏离了基于NLP应用的既定范畴的发展，朝向了以谨慎评价用户需求的发展方向。 • 构建共享任务目标：满足BM研究人员实际的工作流程。

有注释文本集&大规模评价(Annotated text collections and large-scale evaluation) • 评价是一个基本工具，决定一个生物自然语言处理（BioNLP）方法或系统是否有效地达到规定的目标以及成功完成一个任务和达到预期结果的程度。 • BioNLP研究人员关注试验结果的可重复性，可比较性和可行性。 • 知识发现竞赛（KDD Cup）开创了相关方法论并在TREC中继续研究。评价方法包括：产生检验文献集和开展可靠有效评价方法。 • “GENIA语料库”标记着BM领域的检验文献集的开始。

Wilbur等人 :寻找注释TM普通文本属性方法 有注释文本集&大规模评价刻画科学文本的载信息片段的特征： (i)关注主题（科学的，普通的或方法学） (ii)极性（正向，负向，缺乏知识） (iii)确定性（0-3度） (iv)证据（片段中缺乏，涉及或存在） (v)方向/趋势（高/低水平或试验结果的上升/下降）从BM文献抽取101条语句，以这些语句注释的高一致性为基础使用以上方法大量收集的注释正在刚刚起步。

Pyysalo等人 : BioInfer注释 有注释文本集&大规模评价 2001年,Pyysalo等人对BioInfer（生物医学领域信息抽取语料库）集合中的1,100条语句的注释。这一集合建立于GENIA语料库的实体注释，包括关系，命名实体和句法从属关系的注释。关于这些检验集的信息及其有效性可在“生物医学自然语言处理语料库”网站找到。http://compbio.uchsc.edu/ccp/corpora/pubs.shtml

Morgan等人：分析评价BioCreAtIvE的任务 有注释文本集&大规模评价 BioCreAtIvE（Critical Assessment of Information Extraction in Biology‘s）评价的目的是找出文本中涉及的基因，基因名称标准化和蛋白间相互作用的抽取。 Morgan等人以BioCreAtIvE的任务是为MEDLINE摘要中所有人类基因和蛋白质查询EntrezGene标识符为例，分析评价其任务完成情况以及准备文本集的相关问题。

理解用户需求（Understanding user needs） • 用户需求，行为和与工具交互作用的研究是决定需要哪种生物医学工具和服务以及它们是否有用的一个有效途径。 • 近期的努力方向：考虑到用户需求，将NLP方法的应用到支持研究人员和数据库管理者的工具的高级性能。开发系统主要是为了解决特殊任务和用户群体 • 例如，科学文献的个人数字图书馆的特殊有机体数据库的维护或创造。

FlyBase维护工具 理解用户需求特点：以用户观察和用户反馈为基础的反复完善该工具综合的NLP包括涉及基因和相关的名词短语的识别该工具导航到涉及基因列表和可视化线索，这一能力对识别相关实体有帮助。该工具的试验评估有助于确定其他理想的功能，如突出显示表和标题，并跟踪用户行为。

LitMiner ：应用软件 理解用户需求目的：实现对出版论文进行生物学家分析一系列通过PubMed检索BM文献并处理结果的工具对结果有以下操作：（I）以从文献题目或摘要中抽取的主题词为基础，将结果聚类到主题词层次列表；（II）保存并与合作者共享；（III）基因共现应有可比性，基因间关系能够利用网络图可视化。在个案研究中，介绍这一个性化服务后可增加文献的访问量（测量订单的数量）。

BioCreative共享任务 理解用户需求目的：向生物研究人员，特别是数据库管理员提高实际的应用。为了达到这一目的，在定义任务和评价系统输出方面，BioCreative进行和维持与CNIO（西班牙国立癌症中心），鼠基因组信息学，InterAct，MINbT和EBI的生物学家协作。

知识表现法日渐纷杂，表现在：语义资源方面和面向增加粒度的二元 关系的工作展望未来：生物医学文本挖掘的‘新前沿’是什么？令人鼓舞的变化 • 能将文本中的字符串映 • 射成世界中的事物 • （唯一标识符）或它们 • 涉及的存在论的概念 • 科学家们实际使用的工具的有效性的增加

组成生物医学文本挖掘“新前沿”的六个领域：组成生物医学文本挖掘“新前沿”的六个领域：六个领域问题回答摘要技术全文期刊论文的DM 用户驱动系统用户需求和用户界面的评估评价补充：DM系统质量保证和稳健性

关键点 • TM常依赖于IE技术，包括NER和RE，这些领域显示继续发展的空间。 • BIE，摘要技术，QA和轮廓开发为较易获得包括科学论文的信息提供新方法 • BLD的进展表现为：方法学进展，综合系统的增加和这些系统促进生物学实验实际使用增加。 • BMTM团队在用于TM系统的大规模比较评价的材料和基础结构的发展上有很大的跨越。

Thank You

生物医学文本挖掘前沿 - 新发现

生物医学文本挖掘前沿 - 新发现

Presentation Transcript