1.49k likes | 1.88k Views
计算机化学 中国科学院 长春应用化学研究所 许禄. 一 . 计算机辅助分子设计 I. 构效关系 (QSAR/QSPR) 研究 II. 全新药物设计 III. 组合化学与药物设计 二 . 有机化合物结构解析 专家系统 三 . 计算机辅助合成 四 . 新的化学计量学方法. 一 . 计算机辅助分子设计 ( Computer-aided molecular design). I. 构效关系研究 (Quantitative Structure-Activity/Property Relationship study, QSAR/QSPR)
E N D
计算机化学 中国科学院 长春应用化学研究所 许禄
一. 计算机辅助分子设计 I. 构效关系(QSAR/QSPR)研究 II. 全新药物设计 III.组合化学与药物设计 二. 有机化合物结构解析 专家系统 三. 计算机辅助合成 四. 新的化学计量学方法
一.计算机辅助分子设计 (Computer-aided molecular design)
I. 构效关系研究 (Quantitative Structure-Activity/Property Relationship study, QSAR/QSPR) 基本假设: 化合物的结构与其活性/性质是 相关的; 化合物的结构与其活性/性质不 是一一对应的.
? 分子结构图 活性/性质 数学模型 结构特征 统计函数或 模式识别 结构特征 统计函数或模式识别
Y = f(x1,x2,…,xm) 式中: Y为活性/性质; x1,x2,…,xm为结构特征。
y(体重)= f(身高) 体重:y 身高:x Y(体重)= f(身高,腰围) 体重:y 身高:x1,腰围:x2
结构图输入 特征计算 (得到自变量) 特征分析 (自变量选择) 3D结构模型的建立 数学模型建立及预测
如:y: 正烷烃分子的沸点;x:分子中碳原子的数目
特征的主要类型: (1)拓扑类参数:如图论指数 (即拓扑指数),结构片断等; (2)几何类参数:如键长,键角, 二面角等; (3)电子类参:如,量化参数等; (4)物理化学类参数:如疏水性参 数,超热力学参数等。
二维构效关系研究 (2D QSAR/QSPR) 不主要运用3D结构特征
苯胺类化合物的结构及其生物毒性 • 在本研究工作中,苯胺类化合物的生物毒性是该化合物对小鼠的口服毒性半致死量LD50,即引起半数受试小鼠死亡所需的苯胺类化合物的剂量。实验数据来源于美国国家职业安全与卫生所编制发行的RTECS(Registory of Toxic Effects of Chemical Substances)。 • 苯胺类化合物 • 的母体结构为: • * Xu Lu et al., Science in China (Series B), 2000, 43, 129-136
Table 1 Substituted amino-benzens and their toxicity No. R1 R2 R3 R4 R5 -log(LD50) --log(LD50) diff.(obs) (cal) 1 Me H H H H -2.826 -2.854 0.028 2 H Me H H H -2.653 -2.697 0.044 3 H H Me H H -2.817 -2.778 -0.039 4 Et H H H H -3.100 -3.084 -0.016 5 isoprop H H H H -3.072 -3.067 -0.005 6 Me Me H H H -2.970 -2.980 0.010 7 Me H Me H H -3.113 -3.097 -0.016 8 Me H H Me H -2.924 -2.919 -0.005 9 Me H H H Me -2.924 -2.917 -0.007 10 H Me Me H H -2.909 -2.915 0.006 11 H Me H Me H -2.849 -2.834 -0.015 12 Me H H H Et -3.072 -3.106 0.034 13 Et H H H Et -3.255 -3.276 0.021 14 Me H Me H Me -2.871 -2.903 0.032
15 H CF3 HH H -2.681 -2.685 0.004 16 H Cl H H H -2.408 -2.419 0.011 17 H H Cl H H -2.491 -2.501 0.010 18 H Cl Cl H H -2.812 -2.767 -0.045 19 Me Cl H H H -2.759 -2.694 -0.065 20 Me H H Cl H -2.667 -2.669 0.002 21 Cl H Me H H -2.565 -2.580 0.015 22 H H F H H -2.620 -2.634 0.014 23 H H Br H H -2.659 -2.657 -0.002 24 H NO2 H H H -2.728 -2.687 -0.041 25 H H NO2 H H -2.875 -2.875 0.000 26 Me H H NO2 H -2.759 -2.760 0.001 27 NO2 H Cl H H -2.602 -2.605 0.003 28 H NO2 Cl H H -2.602 -2.601 -0.001 29 NO2 H NO2 H H -2.621 -2.634 0.013
1. Calculation of descriptors • Quantum-chemical parameters: 7; • Molecular connectivity indices mxt:11; • Topological indices Ami: 3 • Indicative variable I: 1 • Total: 22 • e.g., Hform, -Ehomo, , - Elumo, mxt, Ami. • * Yu-Xin Zhou, Lu Xu et al.,Chem. Intell. Lab. Syst., 1999, 45, 95-100 1. Calculation of Descriptors
2. Selection of Descriptors (1)经典方法 向前法 向后法 逐步回归法 (2)主成分分析 (3)正交变换 (4)Leaps-and-Bounds Regression (5)模拟退火法 (6)遗传算法 (7)人工神经网络法 * Xu Lu et al., Anal. Chim. Acta,2001, 446, 477-483
Leaps-and-Bounds Regression _______________________ No Descriptor R F S ---------------------------------------------------- 1 1 0.084 4.6 0.14 2 1,7 0.831 5.6 0.13 3 1,2,7 0.833 18.9 0.12 4 1,2,3,7 0.868 18.4 0.11 5 1,2,3,5,7 0.901 19.8 0.097 6 1,2,3,5,6,7 0.913 12.5 0.098 7 1,2,3,5,6,7,8 0.913 15.1 0.096 ____________________________
数学方法的选择 (1)多元回归分析 (2)人工神经网络方法 (3)CoMFA方法
3. Multiple Regression The rule: n/m5 n:number of samples; m: number of variables. -log(LD50) = -0.760 - 1.744*10-3Ef - 5.452*10-2EL - 1.295*10-2Am3 + 1.556*10-3Ep -1.171*10-3Ee R = 0.901, F = 19.8, S = 0.097, n = 29 where Ef : heat of formation; EL : LUMO ; Am3: topological index; Ep : repulse energy; Ee: electronic energy.
4. Artificial Neural Network Algorithm: BFGS quasi-Newton method Architecture: 6: 3: 1 Results: (Regression) R = 0.967 (R = 0.901) F = 386.6 (F = 19.8 ) S = 0.053 (S = 0.097) These are much better than those obtained by multiple regression analysis.
三维构效关系研究 • (3D QSAR/QSPR) • 80年代出现了多种3D-QSAR方法,但目前最重要最为广泛应用的是CoMFA (Comparative Molecular Field Analysis)方法。 • Cramer III R D et al., J. Am. Soc.,1998,110,5959-5967)
CoMFA方法1988-1998 发表文章情况为: 1988-1992 80 1993-1997 287 1998 97
其应用包括: Various 3D-QSAR applications Interaction energy fields Nonlinearity Superposition Conformational analysis Molecular similarity PLS algorithms Neural networks Molecular diversity
在3D QSAR 研究中 • CoMFA的单独应用 • 已用于多类化合物。这些化合 • 物主要分为: • (1)药物 • (2)环境中的有害有机化合物 • (3)其他
(1) 苯甲酰胺类化合物的结构/活 性的QSAR研究 吴亚平,许禄等,高等学校化学学报,1998, 19, 694 Yu-Xin Zhou, Lu Xu et al., Chemom. Intell. Lab. System.,1999, 45, 95 苯甲酰胺类化合物的母体结构为:
A. 多元回归分析 特征的提取 电子特征:主要为量化参数 拓扑特征:分子连接性指数mxt: 0xp, 1xp, 2xp,…6xpc (共18个) 特征的选择 初选后剩6个:0xp, 4xp, 5xp, 6xp, 4xch,6xch
Results with Leaps-and- Boundsregression analysis ___________________________________________ No Variable R F ___________________________________________ 1 5 0.8630 61.78 2 3, 5 0.8751 32.71 3 2, 3, 5 0.8865 23.25 4 2, 3, 5, 6 0.8899 17.12 5 2, 3, 4, 5, 6 0.8906 13.04 6 1, 2, 3, 4, 5, 6 0.8906 10.23 ___________________________________________
回归结果 经验规则: n/m 5 logRI = 3.002 +0.8909 4xp - 1.3465 5xp -13.9234 6xch R = 0.8865, F = 23.24, S = 0.572
B. CoMFA方法 化合物的重叠 模板化合物:1(抗炎活性最大) 重叠原子: 8、9和16 使重叠后的均方根 偏差为最小。
探针: H+ 空间网格大小: 对于x, y, z三坐标均为 从-1.3nm到 1.9nm
结果的比较 2D QSAR 多元回归分析: R = 0.887 S.D. = 0.572 3D QSAR CoMFA: R = 0.993 S.D. = 0.128
观测值、计算值及差值 No logIR(cal) logIR(obs) Err
(2) 新型抗艾滋病药物吡喃酮类化合物的三维定量构效关系研究 (a)母体结构
(b)实验条件 模板化合物:15 网格大小: x: -1.7--1.0 (nm) y: -1.9--0.5 (nm) z: -1.9--1.0 (nm) 探针:sp3 C+
(c)结果 R = 0.984 F = 103 S = 0.011 立体能/静电能 = 0.852/0.148
立体能和静电能轮廓图 立体能轮廓图 静电能轮廓图
2. CoMFA与其它方法 的结合 我们发现: CoMFA方法对某些类化合物的适应性较 差,但与其它方法相结合,或者说将其他 参数引入CoMFA的数学模型,则可使结果 大为改进。
29个苯胺类化合物的结构及其生物毒性 • 毒性:对小鼠的口服毒性半致死量LD50, • 苯胺类化合物 • 的母体结构为: • * Xu Lu et al., Science in China (Series B), 2000, 43, 129-136
Substituted amino-benzens and their toxicity No. R1 R2 R3 R4 R5 -log(LD50) --log(LD50) diff.(obs) (cal) 1 Me H H H H -2.826 -2.854 0.028 2 H Me H H H -2.653 -2.697 0.044 3 H H Me H H -2.817 -2.778 -0.039 4 Et H H H H -3.100 -3.084 -0.016 5 isoprop H H H H -3.072 -3.067 -0.005 6 Me Me H H H -2.970 -2.980 0.010 7 Me H Me H H -3.113 -3.097 -0.016 8 Me H H Me H -2.924 -2.919 -0.005 9 Me H H H Me -2.924 -2.917 -0.007 10 H Me Me H H -2.909 -2.915 0.006 11 H Me H Me H -2.849 -2.834 -0.015 12 Me H H H Et -3.072 -3.106 0.034 13 Et H H H Et -3.255 -3.276 0.021 14 Me H Me H Me -2.871 -2.903 0.032
15 H CF3 HH H -2.681 -2.685 0.004 16 H Cl H H H -2.408 -2.419 0.011 17 H H Cl H H -2.491 -2.501 0.010 18 H Cl Cl H H -2.812 -2.767 -0.045 19 Me Cl H H H -2.759 -2.694 -0.065 20 Me H H Cl H -2.667 -2.669 0.002 21 Cl H Me H H -2.565 -2.580 0.015 22 H H F H H -2.620 -2.634 0.014 23 H H Br H H -2.659 -2.657 -0.002 24 H NO2 H H H -2.728 -2.687 -0.041 25 H H NO2 H H -2.875 -2.875 0.000 26 Me H H NO2 H -2.759 -2.760 0.001 27 NO2 H Cl H H -2.602 -2.605 0.003 28 H NO2 Cl H H -2.602 -2.601 -0.001 29 NO2 H NO2 H H -2.621 -2.634 0.013
(1) Multiple Regression The rule: n/m5 . -log(LD50) = -0.760 - 1.744*10-3Ef - 5.452*10-2EL - 1.295*10-2Am3 + 1.556*10-3Ep -1.171*10-3Ee R = 0.901, F = 19.8, S = 0.097, n = 29 where Ef : heat of formation; EL : LUMO ; Am3: topological index; Ep : repulse energy; Ee : electronic energy.
(2) Artificial Neural Network Algorithm: BFGS quasi-Newton method Architecture: 6: 3: 1 Results: (Regression) R = 0.967 (R = 0.901) F = 386.6 (F = 19.8 ) S = 0.053 (S = 0.097) These are much better than those obtained by multiple regression analysis.
(3) 3D-QSAR Studies (1) Method: CoMFA (2) Basic assumption: Stereo field (Es) Electrostatic field (Ee) Hydrophobicity (logP) (3) Results: Es+Ee: R: 0.85; Rcv: 0.64 Es+Ee+logP: R: 0.85; Rcv: 0.64 Es+Ee+Ef: R:0.975; Rcv: 0.88 * 许禄,吴亚平等,中国科学(B辑),2000,30,1-7
Fig.1 Orthogonal views of compound 16 embedded in contour maps derived from the stereo CoMFA model Fig.2 Front views of compound 16 embedded incontour maps derived from the electrostatic CoMFA model
3. 在SYBYL/BASE基础上 的其他方法研究 在3D QSAR研究中,绝大部分方法的首先要求是化合物应为最优构像。Tripos公司的Sybyl的Base系统为该类研究提供了有效的手段。