870 likes | 993 Views
第二章 化学数据库与专家系统. 2.1 化学数据库 2.2 人工智能和专家系统. 2.1 化学数据库 数据库技术及应用是计算机技术的发展给科学工作者带来的非常重要的手段之一。 计算机网络给数据库的发展提供了新的空间。 化学数据库包括:综合数据库、化学文献数据库、化学结构数据库、化学物质数据库、化学参数数据库等等。 综合数据库 化学信息数据库 网上化学手册. 2.1.1 综合性数据库. 国际著名的数据库 STN 系统、 DIALOG 系统等。
E N D
第二章 化学数据库与专家系统 2.1 化学数据库 2.2 人工智能和专家系统
2.1 化学数据库 • 数据库技术及应用是计算机技术的发展给科学工作者带来的非常重要的手段之一。 • 计算机网络给数据库的发展提供了新的空间。 • 化学数据库包括:综合数据库、化学文献数据库、化学结构数据库、化学物质数据库、化学参数数据库等等。 • 综合数据库 • 化学信息数据库 • 网上化学手册
2.1.1 综合性数据库 • 国际著名的数据库STN系统、DIALOG系统等。 • 国内数据库资源中国数据库索引http://www.chinadatabase.com.cn/万方数据库 http://www.wanfangdata.com.cn/中国科学院科学数据库http://www.sdb.ac.cn http://www.organchem.csdb.cn/
2.1.2 化学信息数据库 • 化学信息数据库是指与化学信息有关的数据库,其中化学结构数据库占有很高的比例。在化学类数据库中有较大型的数据库,如: • 剑桥结构数据库(CSD):http://www.ccdc.cam.ac.uk • 布鲁克海文蛋白质数据库:http://www.rcsb.org 也有范围较小的专业数据库,如: • 有机化合物数据库:http://www.colby.edu/chemistry/cmp/cmp.html • 化学危险品数据库:http://ull.chemistry.uakron.edu/erd/ • 化合物基本性质数据库:http://chemfinder.camsoft.com/
化学信息数据库示例 • 剑桥结构数据库(Cambridge Structural Database) http://www.ccdc.cam.ac.uk • 布鲁克海文(Brookhaven)蛋白质数据库http://www.rcsb.org/ • 化合物基本性质数据库(CS ChemFinder) http://chemfinder.camsoft.com/ • 日本National Institute of Materials and Chemical Research制作的SDBS有机化合物谱图库http://riodb.ibase.aist.go.jp/riohomee.html/ http://riodb01.ibase.aist.go.jp/sdbs/cgi-bin/direct_frame_top.cgi • 上海有机化学研究所制作的化学专业数据库http://www.organchem.csdb.cn
2.1.3 网上化学手册 • 物理化学常数 • 化学元素周期表
网上化学手册示例 • 物理化学常数http://physics.nist.gov/cuu/Constants/index.html • 化合物基本性质http://webbook.nist.gov/chemistry/ • 英格兰Sheffield大学化学系的Mark Winter博士制作的化学元素周期表http://www.webelements.com/
2.1.4 化学信息资源导航 • Internet上的化学信息资源非常丰富并不断增加和不断变化,所以查找非常困难。 • 建立“化学信息资源指南”或“化学信息资源导航”主页,可供化学工作者迅速找到所需要的信息资源。 • 类似于虚拟图书馆/虚拟社区类的主页内容; • 用于查找化学信息时比使用搜索引擎更准确。
化学信息资源导航示例 • ChIN (The International Chemical Information Network)中国科学院化工冶金研究所,李晓霞等http://www.chinweb.com.cn/
2.2 人工智能与专家系统 2.2.1 化学信息的计算机表示 2.2.2 化学信息数据库 2.2.3 化学人工智能与专家系统 2.2.4 计算机辅助结构解析 2.2.5 计算机辅助合成设计
2.2.1 化学信息的计算机表示 • 数字信息 • 结构信息 • 化学知识 • 可视化信息
一、数字信息的计算机处理 • 数字信息(数据)的计算机处理:读入、保存、计算和输出 • 问题:数据的存贮方法 — 节省存贮空间数据在计算机内如何表示 — 节约内存资源数据的内涵如何表达(或输出) — 易于化学家理解
二、结构信息的计算机表示 • 化合物的化学结构信息是化学信息中具有独特性质的部分,因为它需要表示的不仅是数字和符号,更多的是组成分子的原子数目、原子种类、以及各原子间的相对位置和连接性(化学键)。 • 化学结构的表示还应具有“唯一性”和“无二义性(单义性)”。
结构信息的计算机表示方法 • 外部表示 • 外部表示—化学家在计算机交互界面上的表达方式。 • 线型编码(Linear Notation, LN) • 图形表示 • 内部表示 • 内部表示—分子结构在计算机内部的存贮方式。 • 联结矩阵(Connection Matrix, CM) • 联结表(Connection Table, CT) • 键-电子矩阵(BE-Matrix) • 谓词逻辑
有机化合物结构的线型编码 • 线型编码(LN)即具有一定语法规则的字符串 (数字、字母序列),可认为是一种形式语言。 • 线型编码方法 • IUPAC/Dyson编码法 • WLN(Wiswesser Linear Notation)法 • DARC法 • HAYWARD法 • GREMAS片段编码法
WLN线型编码举例 • Z1VQ: • 2U3UU1: • ZVMR DG: • T66 BNJ EQ HO1 IQ D CT6NJEVQ:
其它线型编码举例 IUPAC编码:B62ZN3:5/C3:3/3A6ZQ:6N/5B65ZN7ZS9 HAYWARD编码:6R4Y5LYR4YY DARC编码:DEL.(1000*)(3330**)1(1000)11,12[1:1.21,1.31;22,21;32,3.1]
ZXLN线型编码简介 • 中国科学技术大学计算化学研究室提出,具有无二义性和准唯一性,这种编码接近化学自然语言,较多引用结构式本身的符号和合理的规则,尽可能少的定义新的符号和规则,易于掌握。 • ZXLN线型编码的基本思想:对树状结构用圆括号表达并列关系,用圆括号的嵌套来表达层次关系,充分体现其递归性;对网状结构,其线型式的主体采用分子图的生成树表达,然后再后缀以附加环说明序列把“割断”了的化学键重新接起来。
ZXLN编码举例 (C)4-OH C(H)_(C(H))17;1,35/4 Ph-(C)8=O;8,12;9,14
结构信息的内部表示 • 内部表示要便于执行化学变换操作; • 内部表示的要求: • 完全表达化学结构色图(点、边色性及拓扑关系) • 便于建立各种操作算法 • 合理的时空复杂度 • 表达能力强(能表达立体化学信息)
1 2 3 4 5 6 7 8 1 O 0 1 0 0 0 0 0 2 0 O 0 0 0 0 0 1 3 1 0 C 1 2 0 0 0 4 0 0 1 C 0 2 0 0 5 0 0 2 0 C 0 1 0 6 0 0 0 2 0 C 0 1 7 0 0 0 0 1 0 C 2 8 0 1 0 0 0 1 2 C 结构信息的内部表示举例 连接矩阵表示 连接表表示
三、化学知识的计算机表示—— 知识库的建立 • 知识表示方法 • 逻辑表示模式 • 过程表示模式 • 语义网络模式 • 框架表示模式 • 产生式表示法 等等
例如,逻辑表示模式: • 逻辑表示模式将事实用“命题”和“谓词”两种方式表示。 • 命题—命题指只有“真”和“假”两种可能的事实,如命题P为“某红外光谱在1719cm-1有吸收”, 命题Q为“某红外光谱在2962cm-1有吸收”, P^Q表示“某红外光谱在1719cm-1和2962cm-1有两个吸收峰”。 • 谓词—谓词用来描述实体的性质或关系,如“丙酮的红外光谱在1719cm-1有吸收”可用P(acetone)表示。
计算机辅助有机合成系统中的知识表示—— Diels-Alder反应:环己烯环的合成反应 RULE NAME:DIELS-ALDER REACTION TYPE:CYC KEYNODE:C=C SUBSTRUCTURE:C=C(C)4;1,6 FORBIDDENT:4-OH!NH2!O-C 5-OH!NH2!O-C END PRESENCE: END COEXIST: END PROPOSAL:4-C(=O)-O-C!C=O!C#N!NO2>50&5-C(=O)-O-C!C=O!C#N!NO2>50 1-C>-50&2-C>-50&1-OH!NH2!50 END TOPOLOGICAL OPERANDS: CUT:3,4&5,6 {切断键3-4和5-6} SINGL:1,2 {键1-2改为单键} DOUBLE:1,6&2,3&4,5 {键1-6, 2-3, 4-5改为双键} END YIELD:90 RANK:100 CONDITION:IN THE PRESENCE OF LIGHT OR HEAT CONDITION:THIS REACTION IS STEREO SELECTIVE CF:S.WARREN,“DESIGNING ORGANIC SYNTHESIS”, 1978. CF:M.ORCHIN ET AL, “THE VOCABULARY OF ORGANIC CHEMISTRY”,1980.
知识库的构成 • 识别7种动物的知识库: 规则1,…… 规则2,…… 规则3,如果:动物有羽毛,则:该动物为鸟。 规则4,如果:动物会飞 且会下蛋,则:该动物是鸟。 规则5,…… …… 规则12,如果:动物有黑条纹 且是有蹄类动物,则:该动物是斑马。 …… 规则14,如果:动物是鸟 且不会飞 且是黑白色的 且会游泳,则: 该动物是企鹅。 …… • 大量的知识描述(事实或规则)即构成知识库。
四、化学信息的可视化 • 数字信息的可视化 • 结构信息的可视化 • 科学可视化(Scientific Visualization)
数字信息的可视化 • 一维数据—二维图形如:IR NMR色谱等 • 二维数据—三维图形 等高线如:三维荧光 二维色谱 二维NMRGC-MS等
结构信息的可视化 • 结构信息可视化包括分子的二维结构、三维空间结构、分子表面及性质等的计算机图形表示。 • 分子图形学(Molecular Graphics,MG) • 分子及其性质的可视化 • 虚拟真实(Virtual Reality, VR)或虚拟环境(Virtual Environment, VE) • 分子模建(或建模)(Molecular Modeling, MM) • 目的: • 计算分子结构的几何数据 • 理解分子间相互作用 数字化分子
分子图形学的基本内容 • 分子结构图的显示 • 分子表面的显示 • 虚拟真实的实现
分子图形举例(1) 棍状模型 CPK模型 球棍模型
分子图形举例(2) 螺旋用立体带表示 螺旋用实心圆柱体表示 带状模型
分子表面的定义 范德华表面(van der Waals surface) 溶剂可及表面(solvent-accessible surface) 分子表面(Richards,平滑范德华表面) 三角网格分子表面 范德华表面 分子表面 溶剂可及表面
分子表面举例 分子表面 三角网格分子表面
分子图形学和分子模拟的软件 • WebViewer, InsightII, …...http://www.msi.com • ChemOfficehttp://www.chemoffice.com/http://products.cambridgesoft.com/ • RasMolhttp://www.umass.com/microbio/rasmol/
虚拟真实的实现 • VR使化学家能够象在分子的真实世界中一样研究分子结构以及分子间的相互作用。 • VR技术在分子图形系统中的应用(1)分子结构和分子性质的交互式立体显示(2)交互式六自由度操作多维输入 数据手套(data glove),空间鼠标(space mouse)(3)大分子环境中实时作用力的生成及反馈(4)观察分子结合部位的运动。
2.2.2 化学信息数据库 化学数据库包括: • 综合数据库 • 化学文献数据库 • 化学结构数据库 • 化学物质数据库 • 化学参数数据库 • 化学谱图数据库 等等 谱图库 UV, IR, NMR, MS 意义 谱图的检索 分析仪器的智能化 计算机辅助结构解析
2.2.3 化学人工智能与专家系统 • 智能(Intelligence) —— 指在给定条件下正确运用知识的能力,它是各种能力的总和。 • 人工智能(Artificial Intelligence)—指用机器(计算机)模拟人类的智慧行为进行运用知识解决实际问题的能力。 • 人工智能 = 知识库 + 推理方法 • 人工智能的研究内容包括自然语言理解、智能数据库、专家系统、定理自动证明、自动程序设计、机器人、感知等。 • 专家系统 —— 利用专家的知识和人工智能技术解决实际问题。
化学人工智能与专家系统的应用 • 计算机辅助结构解析 • 计算机辅助有机合成 • 分离科学 • 分析方法及分析条件的选择与优化 • 仪器控制 等等
§2.2.4 计算机辅助结构解析 • 结构解析:UV-Vis, IR, NMR, MS • 计算机辅助结构解析
一、结构解析系统的构成与工作过程 输入系统 知识表示及编译程序 知识库 谱图-结构相关表 结构发生器 结构碎片发生器 整体分子拼接 立体结构发生器 结构验证 1. 已知条件的输入 2. 侯选化合物的生成: (1)产生结构碎片集; (2)整体拼接; (3)产生立体异构体。 3. 侯选化合物的结构验证
二、结构解析中的有关技术 • 子结构的定义及编码 • 子结构-子光谱相关性统计 • 结构碎片发生器 • 整体结构拼接 • 结构验证
对结构碎片发生器的要求是: (1) 对结构异构的产生是穷举的; (2) 对结构异构的产生是无冗余的; (3)对结构异构的产生是高效的.
§2.2.5 计算机辅助合成设计 • 计算机辅助有机合成 —有机合成专家系统 • 计算机辅助分子设计 —医药、农药、蛋白质、高分子、催化剂、材料等等
计算机辅助有机合成 • 有机合成设计是一项高度智慧的工作,它要求化学家不仅具有极其丰富的化学结构知识、化学反应知识,还要具有极其灵活而巧妙地运用这些知识的能力。 • 1964年化学家Corey首次将人工智能应用于合成路线的分析和应用。 • 从60年代开始就陆续有科学家、化学公司和药物公司从事此方面的研究工作,并已逐渐发展成为一种软件产业,即所谓的分子设计和化学设计。 • USTC计划(1986年)
二、有机合成设计系统的工作原理 1. 经验型合成设计系统 2. 非经验型合成设计系统
1. 经验型合成设计系统 • 知识库的构成 反应知识以变换(Transform)的形式表达,知识库中的每一个规则(变换)表示一类通用的合成反应。 • 工作原理 目标分子(TM) 变换 人工或程序选择 合成树
2. 非经验型合成设计系统 • 用BE矩阵(Bond-Electron Matrix)表示反应物与产物的分子结构。 • 化学反应可用数学式表示:B+R=E • B为反应物, • E为产物, • R为反应矩阵(Reaction Matrix)
例如: • R矩阵无需利用已知反应库来实现,因而,所产生的合成路线可能与已知的合成反应相吻合,也可能是尚未被发现但又是可能的反应,另一些反应则可能是根本不可能的反应。 反应物BE-矩阵 R-矩阵 产物BE-矩阵