文本挖掘入门

文本挖掘入门 吴磊

文本挖掘 文本挖掘是利用自动化方法对生物医学文献中的大量可用知识进行开发文本挖掘工作的动机很多

参与者 • 模式生物数据库管理者（Model organism database curators ） • 需要处理大量的出版物，用以不断完善（填充）每一个他们感兴趣的物种基因的字段 • 实验室研究人员（Bench scientists） • 开发出生物医学文本挖掘应用程序，用于协助解释高通量检测分析的输出和改善序列数据库搜索的工具的开发 • 各学科的生物学家 • 开展了各种应用研究，用以应对过去数年间的科学文献双指数增长的问题和在PubMed/ MEDLINE中搜寻基因组相关文献的问题

一个奇怪的现象 • 那些使用率高的，并且对生物学家的工作作出丰富贡献的系统的创建者不是文本挖掘专家，而是生物学家。

生物医学领域的三种基本方法 • 基于共现的方法 • 寻找出现在同一个文本单位（通常是一个句子，但有时也会拓展到一个摘要）中的概念，并设定它们之间的关系 • 例如，系统发现BRCA1与乳腺癌在同一个句子中出现，会推测乳腺癌与BRCA1基因间存在某种关系 • 早期的生物医学文本挖掘系统都是基于共现的，但这种系统也是非常容易出错的，因此目前已不多见。

生物医学领域的三种基本方法 • 基于共现的方法 • 概念共现被用作评估更复杂的系统时的一个简单基准 • 关键在于，概念因表达方式的不同而产生的变化性。 • 例如，BRCA1基因有很多别名——包括IRIS，PSCP，BRCAI，BRCC1，或RNF53（或他们拼写变体，包括BRCA1，BRCA-1，与BRCA 1）——或任何其全称的变体，如breast cancer 1，early onset，breast cancer susceptibility gene 1，或后者的变种breast cancer susceptibility gene-1。 • breast cancer还可以被称为breast cancer, carcinoma of the breast, 或 mammary neoplasm。 • 这些变异问题的解决依赖于更为复杂的系统。

生物医学领域的三种基本方法 • 两个更常见（也更复杂）的文本挖掘方法： • 基于规则或知识的方法 • 基于规则的系统利用了某种知识，其可能采取的形式： • 如何构造语言的一般知识 • 如何在生物医学文献中陈述生物学相关事实 • 生物学概念彼此之间可能存在的关系，及它们可能出现在文献中的变异形式 • 前述这些形式中的任何一个子集或组合 • 实际系统构建中综合使用两方面的技术： • 固定编码方式： • 如：或<disease>与<gene>相关联——来发现研究者感兴趣的对象类别的显式描述。 • 复杂的语法和语义分析。以识别一个广泛范围内的相关概念的变异形式 • 基于统计或机器学习的方法 • 借助于建立可在各个层级上运算的分类器，标注词性->选择句法分析树->对完整的句子或文档分类。

生物医学领域的三种基本方法 • 各自优缺点 • 基于规则的系统开发周期较长（不总是）。 • 基于统计的系统通常需要大量不易获得的已标注训练数据。 • 实践中，二者可卓有成效的结合起来 • 许多系统采用了一个预统计处理步骤，其后是基于规则的后续处理。

歧义问题 • 定义：语言和语义或词类的多重关系的存在。 • 是任何类型的系统都必须要面对的一个主要问题。 • 例如：有关基因的名称和符号 • fat：形容词or名词？ ->查询PubMed->返回112 K的命中结果（即使通过逻辑表达式（gene OR genetic OR genetics）来限制其范围，结果仍会超过13 K） • fat也可以是许多不同物种的基因名或符号 • 人类，小鼠，大鼠，果蝇，斑马鱼，鸡，猕猴及两个乳杆菌中，至少有一个基因的名字、官方符号或别名是（fat）。

歧义问题 • 定义：语言和语义或词类的多重关系的存在。 • 是任何类型的系统都必须要面对的一个主要问题。 • 即使所指物种能够确定，歧义问题仍可能存在： • 人类基因组中：fat既是2195号Entrez基因记录的官方符号，也是948 号Entrez基因记录的官方别名 • 2195是一个cadhedrin (ca2+-dependent cell adhesion molecule family)：钙离子依赖的细胞粘附素家族的粘附分子，与肿瘤抑制和双相性精神障碍有关， • 948是凝血酶受体，与动脉粥样硬化、血小板糖蛋白缺乏症、高脂血症及胰岛素耐受性有关。

构建系统的第一步：定义目标并检查数据 • 良好的软件工程实践将是构建成功的关键 • 见下图：表明了可构建在一个表示系统中的语言分析层级

LocusLink ID MeSHconcepts Partofspeech词性 NN：单数名词 IN：介词 VBZ：第三人称单数一般现在时动词 JJ：形容词 CC: 并列连词语言分析的层级

构建系统的第一步：定义目标并检查数据 • 良好的软件工程实践将是构建成功的关键 • 首要关键步骤是定义该系统所需的行为 • 考虑这样一个系统，目的是从文本中提取基因/疾病的关系，那么… • 预期输出是供人使用，或是要令它成为一些后续自动处理步骤的输入？ • 预期输入是拟从一个数据库提取字，还是摘要或期刊文章全文？ • 预期输出是基因和疾病的列表么？If so->该系统能够实现通过点击进入从中提取了一个特定基因/疾病对的全文么？ • 能否否实现简单输出在文本中找到的字符串，或必须实现输出的是数据库标识符形式（Entrez Gene IDs 和 OMIM IDs）？ • 早些明确这些需求有助于在开发过程中少走弯路。

构建系统的第一步：定义目标并检查数据 • 良好的软件工程实践将是构建成功的关键 • 另一个早期关键步骤：手工检查大批量可能的输入。 • 可能会较为耗时，但非常重要 • 未受过语言训练的科学家会惊讶->即使是最明显简单的生物概念也会有超出想象的表达方式。 • 拿上一支荧光笔，花4小时在论文堆上会预防许多可能出现的不愉快的意外情况。

构建系统的另一个重要考虑：如何评价你的系统 （评估方法） • 一个首要问题： • 发表论文为目标？OR 确定其是否适合外部应用？ ->三种方法 • 语料库：适用于论文目的 • 近期的类CASP共享计划已构造出许多用于评估更多复杂任务性能的数据集，如基因本体编码到蛋白质的任务，或蛋白质相互作用的检测和分类。 • 测试套件：适用于内部应用适宜性的评价。最好的范例是一个构建于软件工程和结构化软件测试的原则之上的测试套件 • 系统输出的【事后评判】：通常够得上发表论文，但往往不大切合系统开发的实际，因为它不能快速和频繁的重复。一个有某些任务的正确答案标注的文本数据的实体

结论 • why？大部分已构建的生物医学文本挖掘系统的创建者都不是文本挖掘专家，而是计算生物学家。 • 推测：两个群体之间的文化差异. • 文本挖掘专家更倾向于能让他们开发的系统在计算语言学会议上发表。So，系统一般限于某个专业领域，通常是各种各样的任务都可用的，并且，它更多的依靠统计方法。 • 计算生物学家会毫不犹豫的去构建专业领域专用的系统，甚至只是某个高度相关的任务（例如，RLIMS - P系统，其目标仅为关于磷酸化的论点），这种系统也不会教条的去避免使用基于知识的方法。他们更擅长于前述第一个关键步骤：定义该系统的目标，采用从实用性出发的原则，而非计算语言学文献的可发表性。

展望 • 文本挖掘专家将继续在构建系统组件和设计评价数据集方面施展才华。 • 计算生物学家目前看来更擅长于任务的定制。 • 或许，最富有成效的方法的是两方的联合努力，充分利用每类科学家的能力特点。

社会网络分析 • 3.计算

社会网络分析 • 特征向量中心度（Eigenvector centrality ） • 1.定义 • 节点的中心化测试值由周围所有连接的节点决定，即一个节点的中心化指标应该等于其相邻节点的中心化指标之线性叠加。 • 2.意义 • 分析这种通过与具有高度值的相邻节点所获得的间接影响力

社会网络分析 • 3.计算 • 在Ucinet中，执行Network→Centrality→Eigenvetor。

社会网络分析 • 子图(subgraph centrality) • 1.定义 • 是对节点度中心性的改进，基于节点对所在网络局部子图的参与程度来确定节点的重要性。 2.计算

复杂网络 • 复杂网络是近几年科学研究发现的一种介于规则网络和随机网络之间的一种更接近于真实网络的一种网络模型。 • 复杂网络最典型的特征是小世界现象和无标度特征。小世界现象说明了规模很大的网络的任意两个节点之间存在最短路径；无标度特征则揭示了真实网络的结构符合幂率分布的事实。

复杂网络 • 引文网络是复杂网络 • 复杂网络中许多发现重要节点的方法可以用到引文网络中发现重要文献

复杂网络 • 随机行走中心性（Random Walk Centrality） • 1.定义 • 随机行走模型的提出基于一个多数网络的事实，网络节点对网络的整体特性是未知的，这样就使得对整体网络选择最优不可能

复杂网络 • 2.计算 • (a)构建关系矩阵L=D-A．其中，A为目标网络的邻接矩阵，D为节点度组成的对角矩阵． • (b)变换矩阵，把L矩阵去掉最后一行和最后一列，变成可逆矩阵． • (c)求L矩阵的逆矩阵L-1。，在L 基础上添加元素全为0的一行一列，构成新矩阵T

复杂网络

复杂网络 • 节点删除法： • 利用网络的连通性来反映系统某种功能的完整性。 • 通过度量节点(集)被删除后对网络连通的破坏程度来定义其重要性的。即“破坏性等价于重要性”。对网络连通的破坏程度越大，被删除的节点(集)越重要。

复杂网络 • 系统中节点(集)的删除还会影响到系统的一些其他指标，也可以通过计算这些指标的性能变化来度量节点的重要性。 • 如Chen等人提出了一种基于最小生成树的指标，即节点的重要性决定于该节点被删除后系统中最小生成树数量的变化情况。去掉节点以及相关联的边后，所得到的图对应的生成树数量越少，则表明该节点越重要。

复杂网络 • 节点融合法（节点收缩法） • 将节点的平均路径和节点个数乘积的倒数定义为网络凝聚度，用每个节点融合后的网络凝聚度来评价节点重要性。网络凝聚度越大，重要性越高。

复杂网络 • 节点孤立法 • 当某个节点在被破坏或是失效时，该节点无法与其他节点连通，但是不能像其他节点融合法或是节点删除法那样，忽略它对网络的影响。因为其他节点仍然尝试与该节点连通，会增加一定的网络负担，使得网络通信的总路径增加。

复杂网络 • 信息搜索领域、互联网 • PageRank算法 • HITS算法

文本挖掘入门

文本挖掘入门

Presentation Transcript