610 likes | 1.18k Views
一体化医学语言系统 ( Unified Medical Language System, UMLS). 崔 雷. 教学目标. UMLS 表示的是什么?它是干什么用的? 它由哪些部分组成? 各个部分的结构是什么? 什么是 CUI、LUI、SUI? 什么是语义类型?什么是语义关系? 在什么具体情况下可以使用它?. 教学内容. 第一节:概述 UMLS 的目标和作用 第二节:超级词表 基本概念和结构 第三节:语义网络 基本概念和结构 第四节:专家词典 适用范围和结构. 第一节 概述. 开发背景: 信息系统“各自为政”。
E N D
一体化医学语言系统(Unified Medical Language System, UMLS) 崔 雷
教学目标 • UMLS表示的是什么?它是干什么用的? • 它由哪些部分组成? • 各个部分的结构是什么? • 什么是CUI、LUI、SUI? • 什么是语义类型?什么是语义关系? • 在什么具体情况下可以使用它?
教学内容 • 第一节:概述 • UMLS的目标和作用 • 第二节:超级词表 • 基本概念和结构 • 第三节:语义网络 • 基本概念和结构 • 第四节:专家词典 • 适用范围和结构
第一节 概述 • 开发背景:信息系统“各自为政”。 • 计算机病案系统:使用SNOMED或ICD组织信息。 • 书目文献数据库:PubMed使用MeSH表。 • 事实数据库:OMIM • 专家系统:Dxplain • 存在问题: • 同一概念在不同的数据系统中会有不同的表达方式; • 数据库系统分散所造成的检索不完整的问题 。
第一节 概述 让用户能够方便地把分离的信息系统中的信息集中起来,从而帮助医务人员从大量的信息源中检索和合成电子化的生物医学信息。 1986年,美国国立医学图书馆Donald Lindberg开始组织研究和开发的一项长期项目。
第一节:概述 • 具体手段: • UMLS项目开发了机读型的“知识库”。 • 将其广泛应用于应用程序之中,以克服因词表不同和相关文献分散于不同数据库等问题造成的检索困难。
In The Beginning… in 1986 that is… NLM Created… • The Unified Medical Language System, a long-term research & development project to build a “Unified” Medical Language System • The UMLS is not a gigantic and comprehensive medical vocabulary • The UMLS is a relational database connecting by concept over 60 vocabularies, thesauri, medical problem lists, etc.
第一节:概述 • 知识源:包括四种,即超级词表、语义网络、信息源图谱和专家词典。 • 超级词表是生物医学的概念、术语、词汇及其涵义、等级范畴的集成。 • 语义网络是为建立概念、术语间相互关系而设计的,它为超级词表中的所有概念标明了类别和语义类型。 • 信息源图谱是一个有关各种生物医学数据库的范围、位置、词表、语法及获取条件的信息。 • 专家词典则包括英语词汇数据库及其配套程序。相互联系,结合使用的一个整体。
UMLS Distribution • Annual updates since 1990 Plan to distribute quarterly updates • Free, but requires a license agreement • Full UMLS available: • CD-ROM • ftp from the Knowledge Source Server • Application Programming Interface (API) • Knowledge Source Server (KSS)
第二节:超级词表 Metathesaurus • Concepts, terms, and attributes from many controlled “vocabularies” controlled “vocabularies” • in a common explicit database format e format • New inter source relationships, definitional information, use information • Scope determined by combined scope of source vocabularies
超级词表的组成 • 收录范围:2003年7月,包括了100多种的生物医学词表和分类表。900,551种概念,250万个概念名称。 • 包括如下类型: • 病历管理系统词表 • 疾病和疾病过程的分类表 • 专业词表:包括与精神病学、护理、医疗器械、药物副作用等数据有关的词表。 • 专家系统或联机数据库中的疾病术语:如麻省总医院的专家系统Dxplain,孟德尔人类遗传学联机数据库、临床癌症事实型数据库等。 • 信息检索系统使用的词表,如MeSH及其各种译本、美国国会图书馆标题表。 • 医学词典,如多兰氏医学词典、医生现行工作术语。 • 工具性词表:如校对词表等。
超级词表的构建 • “概念”是超级词表的组织系统的核心。超级词表是依据概念(concept)或涵义(Meaning)为中心组织起来的,从根本上说,其目的是要将同一概念的各种名称(同义词)和形式(单复数、形容词等)联系在一起,并标识不同概念之间的关系。
超级词表的构建方法 • 采用三级模式来表达概念及相关形式: • 概念(Concept):唯一标识符为CUI。 • 术语(Term):表达同一概念的不同术语,如同义词,其唯一标识符为LUI。 • 串(String):同一术语的多种变异形式,如复数及其他变形。其唯一标识符为SUI。 • “terms” (Eye, Eyes, eye = 1) • “strings”/concept names ~(Eye, Eyes, eye = 3)
第二节:超级词表 • 串Atrial Fibrillation 及其复数形式Atriallations 具有不同的SUI,但是它们都连接到同一个LUI。 • 由于术语Atrial Fibrillaion 和术语Auricular Fibrillation 是同义词,因此都连接到同一个CUI。 Atrial Fibrillation Atrial Fibrillations Auricular fibrillation CUI C0004238 LUI L0004238 L0004327 Atrial Fibrillation Atrial fibrillations Auricular Fibrillation Auricular fibrillations SUI S0016668 S0016669 S0016899 S0016900 Atrial Fibrillation Atrial fibrillations Auricular fibrillation Auricular Fibrillations
Atoms and Atom Identifiers • 原子标识符:每一字串根据来源词表不同赋予不同的AUI。 • 称来自不同的来源词表的概念名或者字串为 “原子”。 • 是超级词表的基本构造单元。
教学内容 • 第一节:概述 • UMLS的目标和作用 • 第二节:超级词表 • 基本概念和结构 • 第三节:语义网络 • 基本概念和结构 • 第四节:专家词典 • 适用范围和结构
第三节:语义网络 • 组织概念: • 把概念联系起来,通过概念间的语义关系,组成网络。 • 语义网络是建立概念间相互关系的权威规则。 • 语义类型 • 语义关系 • 我们以往见到的词表是如何组织概念的呢? • 《中图法》 • 《MeSH》 • 《ICD》
第三节:语义网络 • 语义类型: • 语义网络为超级词表中的每个概念至少提供一种语义类型 • 通过134种语义类型,为在超级词表中的所有概念提供一种目录组织结构。 Macroaggregated Albumin
第三节:语义网络 • 语义类型 • 语义类型的结构是等级制的,其顶层分为“物”和“事”两大类,由此层层展开。 • 每一个语义类型有一个等级号。如“诊断过程”的等级号是B1·3·1·2。 • 此外,每一个语义类型还赋予一个语义类型代码,这些码并无实质意义。
第三节:语义网络 A 物 (T107) 1.实质性物(T072) 1.生物体 (T001) 1.植物 (T002) 1. 海藻(T003) 2.真菌(T004) 3.病毒(T005) 4.立克次氏体或衣原体(T006) 5.细菌(T007) 6.动物(T008) 1.无脊椎动物(T009) 2.有脊椎动物(T010) 1.两栖类(T011) 2.鸟类(T012) 3.鱼类(T013) 4.爬行动物(T014) 5. 哺乳动物(T015) B 事 1.活动 1.行为 1.社会行为 1.个体行为 2.日常或娱乐活动 3.职业性活动 1.卫生保健活动 1.实验室过程 2.诊断过程 3.治疗或预防过程 2.研究过程 1.分子生物学研究技术 3.政府或立法活动 4.教育活动 4.机器性活动 1. 人类(T016)
Semantic Network record STY|T020|Acquired Abnormality|A1. 2 . 2 . 2|An abnormal structure, or one that is abnormal in size or location, found in or deriving from a previously normal structure . Acquired abnormalities are distinguished from diseases even though they may result in pathological functioning (e . g . , "hernias incarcerate") . |Abscess of prostate; Hemorrhoids; Hernia, Femoral; Varicose Veins||||| Acquired Abnormality|co-occurs_with|Injury or Poisoning|D| Acquired Abnormality|isa|Anatomical Abnormality|D| Acquired Abnormality|result_of|Behavior|D|
第三节:语义网络 • 语义类型之间通过54种语义关系为这种组织结构提供框架,以代表生物学领域重要的关系。
第三节:语义网络 • 语义关系: • 语义关系链将语义类型连接成为语义网络。在语义网络中,语义类型可以看成有层次结构的节点,而将这些节点连成网的就是语义关系“链”。这种关系链共有54种,可以分成两类: • 等级关系链(H):仅一种,为isa。它是语义网络中的基本等级链,表达语义类型间的等级关系。如果语义类型(A)与语义类型(B)之间是isa关系,则表示A语义类型在定义上比B更为专指。如图3。 • 相关关系链(R):除isa外,其余的语义关系都是相关关系。它们反映了语义类型间的多样性。包括物理上的相关、空间上相关、功能上相关、时间上相关和概念上相关。如图。
第三节:语义网络 H.等级关系链 isa • R.相关关系链 • 1. 物理上相关 • ...的部分 • 由...组成 • 包含 • 与...相连 • 相互连接 • 2. 空间上相关 • 位于... • 与...相邻 • 包围,周围 • 穿过 • 3. 功能上相关 • 影响 • 管理 • 治疗 • 干扰 • 并发 • 与...相互作用 • 预防 • 带来、造成 • 产生 • 引起 • 执行 • 实施 • 展示 • 练习 • 4. 时间上相关 • 与...同时发生 • 先于...发生 5.概念上相关 ...的评价 ...的程度、等级 分析 分析评估的影响 ...的测量值 测量 诊断 ...的特性 ...
第三节 语义网络 • 每一种语义关系都有其定义,并规定它可连接的语义类型。如语义关系“影响” • 定义: • 对...产生一种直接的效果,意为对一种存在的条件、状态、环境或物的改变或影响,包括对...起作用、改变、影响,使易感染、催化、激发、调节、抑制、阻碍、增强、有助于...、致使、修订。 • 可连接的语义类型有: • 自然现象或过程 影响 自然现象或过程 • 解剖学异常 影响 生理功能 • 生物学功能 影响 生物体
第四节 专家词典 • 概述 • 专家词典是为满足“专家”自然语言处理系统对词汇信息的需求而开发的 • 每条词或术语包括专家自然语言处理系统所必须的句法,形态及字型信息。 • Syntactic (syntax information) • Morphological (inflection, derivation, and composition information) • Orthographic (spelling information)
词典的范围 • 作为一个包括大量生物医学术语的普通英语词典。覆盖面既包括常见英语词汇,也包括生物医学词汇。
第四节 专家词典 • 从不同来源中选出单词进行词汇编码。 • 核心单词: • 从UMLS的MEDLINE文摘数据试验中获得的20,000左右的单词 • UMLS超级词表 • Dorland图解医学词典 • 一般单词: • 美国Heritage词频词典中列出的10,000最常用单词 • Longman当代英语词典中定义的2,00单词
第四节 专家词典 • 所选的单词大多数都是名词 • 动词:当前MEDLINE记录中 • 形容词: • 计算机化牛津高级学生词典 • 挑选Dorland图解医学词典
第四节 专家词典 • 包含的主要信息: • Base form of the term:基本形式 • The part of speech :词性 • A unique identifier :唯一码 • Rules for spelling variants:拼写变形规则
第四节 专家词典 • 用法 • 词典由一系列条目组成,每一条目代表在特定结构里的一种拼写变异或一组拼写变形。还包括一些多词组合词,以及缩写词等。 • 具有共同的基本形式和拼写变化的条目组成一个记录。基本形式是指拼写变异中的引文形式,而引文形式系指动词的不定式形式、名词的单数形式和形容词副词的原形。
第四节 专家词典 {base=anaesthetic spelling_variant=anesthetic entry=E0008769 cat=noun variants=reg entry=E0008770 cat=adj variants=inv position=attrib(3) } 词典中的"anaesthetic"记录: 其基本形式是“anaesthetic”,其拼写变异是anesthetic,该记录还有名词条目和形容词条目两个条目。其“variants=”slot表示该条目的形态变异,如名词条目中的“reg”表明名词是一个可数名词,遵循一般复数规则(anaethetics)。其形容词条目中的“variants=”slot的“int”表明该形容词没有比较级和最高级。其“position=” slot 表明“anaesthetic”形容一个属性并且在正常语序中在色彩形容词之后。
词汇变形生成程序 • 该程序就是帮助用户解决这类变化带来的困难。解决自然语言单词和术语的高度变异性。 • 同一单词经常有多种变形,如“treat”一词,可以有其单数第三人称形式“treats”,过去分词“treated”和现在分词“treating”。 • a normalizer • a word index generator • a lexical variant generator