370 likes | 542 Views
数据处理. 丛培盛 2009.10. 目的. 识别问题 针对问题 — 选择合适的工具. 重点内容. 化学分析体系分类 — 识别问题 化学分析数据类型 选择合适的算法 经典案例. 化学分析体系的分类. 混合物中有我们感兴趣的物质 也有未知的干扰物. 混合物中的物种和量都是未知的. 白色体系. 混合物中的所有的物种均已知. 解 析 目 的. 灰色体系. 测定混合物中每种物质的量. 黑色体系. 测定感兴趣的物质的量. 混合物中每种物质的定性和定量. 重点内容. 化学分析体系分类 化学分析数据类型 选择合适的算法 经典案例.
E N D
数据处理 丛培盛 2009.10
目的 • 识别问题 • 针对问题—选择合适的工具
重点内容 • 化学分析体系分类—识别问题 • 化学分析数据类型 • 选择合适的算法 • 经典案例
化学分析体系的分类 混合物中有我们感兴趣的物质 也有未知的干扰物 混合物中的物种和量都是未知的 白色体系 混合物中的所有的物种均已知 解 析 目 的 灰色体系 • 测定混合物中每种物质的量 黑色体系 测定感兴趣的物质的量 混合物中每种物质的定性和定量
重点内容 • 化学分析体系分类 • 化学分析数据类型 • 选择合适的算法 • 经典案例
常见仪器产生的数据 光 谱 色 谱 OV型数据 特点: 每一个样品就产生一行数据 数据示例 质 谱
仪器联用产生的数据 发射 荧光激发--发射 激发 光谱 色谱--光谱 色谱 特点: 每一个样品就产生一个n行m列的数据矩阵 一般称为 VV数据或两维数据; 如果有多个样本,将组成一个三维矩阵 GC * GC --TOF * GC--TOF 一个样品就是三维 数据示例
解析各体系所需要的数据类型 白色体系 灰色体系 黑色体系 VV型数据 灰色定量:至少2个样本 黑色定性:一个样本,但需要一些 先验知识。 黑色定量 :在定性的基础上, 至少再需要另一个标准样本 OV型数据
重点内容 • 化学分析体系分类 • 化学分析数据类型 • 选择合适的算法 • 经典案例
不同类型问题使用不同的算法 白色体系 OV型数据 • ◎多元校正问题 • MLR, PCR, PLS, KPLS, GA-PLS • ◎模式识别问题 • PCA, FCM, KNN, KMC, HMC, Fisher, • CPF, AKMC,ANN
◎灰色体系解析方法 CBBL, GRA, EFA ◎黑色体系解析方法 ITTFA, ATLD(交替三线性分解) AATLD(交替不对称三线性分解) APTLD(交替惩罚三线性分解) APTLDS(交替惩罚三线性分解) SWATLD(自加权交替三线性分解) PARAFAC(平行因子分析) 灰色-黑色体系 VV型数据 具体算法详见网站介绍
小结 • 白色体系 • OV型数据 -- 多元校准或模式识别 PCR PLS KPLS(非线性时) 神经网络 PCA • 灰色体系 • VV型数据(或两维数据)—GRA EFA CBBL • 黑色体系 • VV数据或三维数据 —PRAFA、TLD方法
化学计量学算法网站 地址 http://chemcenter.tongji.edu.cn/bbs 在其中找“化学计量学网络计算”版块 找到算法平台地址,注册一个帐号 或者登录 http://www.hahasource.com/netcalc
认识计量学平台网站 首页 研究系统 工作界面
网站的使用 ◎注册用户 ◎选择“我研究的系统”,选择”新增” ◎建立系统时,选择数据类型(OV型或者VV型) ◎建立系统后,选择“我研究的系统”,新建的系统将显示,选择对应行的“开始计算” ◎进入系统后,选择导入数据 ◎注意数据的排列方式,一行一个样本, 还是一列一个样本? ◎导入完毕后,刷新系统,看到系统的数据 ◎选择合适的方法进行计算,保存和查看结果
重点内容 • 化学分析体系分类 • 化学分析数据类型 • 选择合适的算法 • 经典案例
案例一---多元校正问题 光谱法测定色素混合物含量 案例位置:计量学算法网站——经典案例 案例内容:用合适的算法对日落黄、柠檬黄、 胭脂红混合物多元校正解析 属于白色体系、OV型数据、多元校正问题
实验获得的数据为不同波长下的吸光度,用于分析的数据表的格式为一行一个样本,一列表示一个测量通道下的测量值 实验获得的数据为不同波长下的吸光度,用于分析的数据表的格式为一行一个样本,一列表示一个测量通道下的测量值 数据格式 PCR? PLS? MLR? 方法选择
案例二---模式识别问题 小麦质量鉴别 案例位置:计量学算法网站——经典案例 案例内容:用合适的算法对小麦的一些物理 参数进行解析,实现对小麦品质 (好/坏)的初步分类 属于白色体系、OV型数据、模式识别问题
OV型数据,一行一个样本,一列为一个测量物理量OV型数据,一行一个样本,一列为一个测量物理量 数据准备 本例中:用人工将小麦分成2类。 用1代表品质好的小麦,-1代表品质差的小麦。 目标:尝试建立这24个特征和小麦分类的关系。 方法选择 PCA HCM ANN
PCA与神经网络结果比较 PCA结果 ANN结果
HMC解析结果 数据无预处理 数据经过预处理
案例三---解析灰色体系 二维数据处理 案例位置:计量学算法网站——经典案例 案例内容:迭代目标转换因子分析ITTFA解析 内分泌干扰物邻苯二甲酸二甲酯 (DMP)的水解动力学过程
实验获得的数据如下图所示: ◎该数据是二维数据,由仪器获得的吸光度值 ◎水平方向表示某时刻下的光谱 ◎垂直方向表示某波长下吸光度的变化值 数据格式 实验测量数据 色谱时间间隔 光谱波长间隔 ITTFA 方法选择
结果展示 左上角的图形,是体系水解的各组分的分布曲线,右图是对应的光谱吸收曲线。下面窗口里的数据,是对应的谱图数据。
结 束 2009.9
多元校正问题 多元校正(multivariate calibration): 利用测得的多变量信息对混合物体系进行浓度预测的一种化学计量学方法。 定量关系 样品测量值 样品浓度 建模 预报
多元校正问题的一般步骤 样品浓度 已知样品 建模 预报 样品测量值 样品测量值 未知样浓度 未知样品
多元校正算法介绍 ◎与MLR 类似,解决的是 y=f(x) 类型的建模问题。即,其求解的是 Y = XC方程的解,系数矩阵C。 ◎PCR适合于变量数大于样本数的系统的建模分析,通过提取量测矩阵中的有效主成分(也就是对仪器采样波段有响应的物质数),有效的降低噪声的影响,而达到充分利用仪器提供的信息,精确的解决多元校正问题。 ◎可以与PCR解决相同的问题 ◎与PCR 不同在于,PLS 不借助于直接分解X矩阵求解,而是同时对X和Y矩阵进行分解,使得求取出的C矩阵充分保留了X和Y的信息 ◎在试验误差范围内,PCR 和PLS 的结果没有什么差别。 噪声比较大的体系中,PLS 的结果要稍微优于PCR 的结果。 通过遗传算法进行优化,使该方法适合于实际控制中变量的选择问题。 • MLR:多元线性回归 • PCR:主成分回归 • PLS:偏最小二乘法 • KPLS:核偏最小二乘法 • GA-PLS:遗传算法-偏最小二乘法 ◎是在PLS 算法的基础上,通过所谓的核函数来扩展的PLS 算法,根据选择的核函数的不同,可以适合于解决不同类型的问题。 ◎利用误差最小的原理,求解 y=f(x)类型的建模问题 ◎MLR 算法适合于解决X矩阵的行数大于等于列数的问题,而且,X矩阵中的行不能线性相关。即某一行不能乘以某常数后得到另一行。
模式识别算法介绍 无监督的聚类分析 方法,属于多元数据分析方法的一种,针对给定的样本集合,尽量使同类的样本分在一个类别中,而把不同类的样本分到其他类别里。 KNN 适合于2类分类问题,其基本原理是:先得到N个已知的样本,将其视为先验知识。计算时,用户先决定一个整数常数K。对于任何一个待分类的样本,先计算它与N个已知样本的距离,从中找出距离最小的K个样本,然后按公式计算得分值,根据得分进行分类 系统聚类法基本思想是:将待分类的n个样本各自看作一类,然后计算所有的类和类间的距离,选择其中的距离最小的2个类合并成一个类,而取代原来的2个类。这样系统中的类别数就减少了一个类。如此循环进行,直到所有的类合并为一个类为止。 ◎化学计量学方法的基石 ◎典型的非监督的模式识别方法 ◎PCA 的实现有2种方法,一种是特征值分解,另一种是NIPALS算法 • PCA:主成分分析 • FCM:模糊C均值聚类 • ANN:人工神经网络 • KNN:K-最邻近法 • HMC:系统聚类法 • 更多算法参见网站的算法介绍
模式识别问题 模式识别(PatternRecognition): ◎是人类的一项基本智能 ◎模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程 通过对已知样本数据的处理与分类, 判别出未知样本是否属于已知样品, 以及未知样品属于已知样品中的哪一类 建模 预报
灰色体系 ◎分析对象中最常见的体系 ◎不能使用白色体系方法 ◎必须使用双线性VV型的数据 例如一杯有颜色的饮料,里面已知有糖分、食用色素等,其他的成分未知;又或者现在环境监测中,经常知道污染源是什么,对造成污染的物质种类有所了解,但其他一些污染源的存在可能是未知的。 双线性VV型数据的特性可以使灰色体系使用 减秩法、残差法等解析问题 灰色体系中的干扰物对分析会造成影响 灰色体系的VV型数据不适用于白色体系的建模方法
PCR 结果 判断出系统包括三个主成分 预报出的自身结果与实验预设的浓度 相对误差很小