510 likes | 1.05k Views
1. Introduction. 主成分分析与主成分回归 Principal Component Analysis and Regression. 2. PCA. 3. PCR. 1. Introduction. 1.1 Chemometrics. 1.2 Necessary Knowledge. BACK. 1.1 Chemometrics. 1971 :瑞典人 S. Wold 基金项目定名时首提 1974 : S. Wold 何 B.R. Kowalski 倡议在西雅图首开学术会议 新创学术刊物
E N D
1. Introduction 主成分分析与主成分回归Principal Component Analysis and Regression 2. PCA 3. PCR
1. Introduction 1.1 Chemometrics 1.2Necessary Knowledge
BACK 1.1 Chemometrics 1971:瑞典人S. Wold 基金项目定名时首提 1974:S. Wold 何B.R. Kowalski 倡议在西雅图首开学术会议 新创学术刊物 J. Chem. Info. Comp. Sci. J. Chemometrics Chemom. Intell. Lab. Syst. 化学计量学与计量关系 Chemometrics Stoichiometry 1.1.1. 1970S发展 应用数学、统计学、与计算机科学的手段设计或优化量测方法,并通过解析数据最大限度地获取化学及相关信息。 化学分析化学 数学 统计学 计算机科学 接口 1.1.2. 交叉学科 1.1.3. 现代仪器 需要化学计量学 获得更多信息 1.1.4. 一个例子
Separation Instrument SignalInstrument A New trend in Analytical Chemistry ---Hyphenated Instrument (聯用儀器) HPLC DAD (diode-array detector) GCMS (Mass-spectrometer)
3D chromatogram HPLC-DAD • Get more data HPLC chromatogram of nuclueside of Cordyceps Sinensis (冬蟲草) at one wavelength
Mass spectrum taken at retention time 10.2 minutes BACK GC-MS GC chromatogram of peptic powder (平胃散) • Two-way data containing both chromatography and spectra; • Data matrix with more than 80 Megabytes; • Data base of lots of chemical standards
BACK 梁逸曾教授的经历 美国标准局16组分PAH混合物标样(Sulpeco)已知峰9为苯并[a]蒽和屈,峰14为苯并芘和二苯并蒽的二组分重叠峰 Next 芴、苊、菲三混合
峰5、峰6的演进特征投影图峰5的前5个特征值依次为16382,2436,1294,22,11峰5、峰6的演进特征投影图峰5的前5个特征值依次为16382,2436,1294,22,11
BACK 分辨所得的芴、苊、菲、蒽的色谱与光谱化学学报 1998,中国科学 1998,ChemLab. 1999
一条光谱 同物质不同浓度的光谱 一组溶液的光谱集合 混合溶液中的物种数 1.2 Necessary Knowledge on Linear Algebra BACK 线性代数→ 1.2.1 矢量Vector 1.2.2 线性相关 1.2.3 矩阵Matrix 1.2.3 秩Rank
行矢量:α=(a1, a2,…, an);列矢量αt。 矢量:n个有顺序的数a1, a2,…, an组成的数组α。 线性组合:γ=k1α+ k2β。 就称为α,β的 问:由α,β,γ组成的矩阵, rank最大为几? k1α1+ k2α2+ …+ kmαm=0 α1=( 1 2 3 4 5 6 ) α2=( 6 5 4 3 2 1 ) α3 =( 1 1 1 1 1 1 ) α1+α 2-7α3 =0
True score of student i Relative loading(importance) given by professor k 矩阵:一组相同大小的矢量组合经典例子: 教授给学生打分 Grade dik received by student i from professor k is j: factors (i,e., subjects) chem., physics, math., etc.
Professors 1 2 3 1 2 3 4 1 2 3 4 Students Students 得分矩阵 载荷矩阵 factors 1 2 Professors 1 2 3 [S] is the matrix of true scores, called the score matrix [L] is the matrix of importance, called the loading matrix Factors 1 2 3教授给4学生写留学推荐信 Four students three professortwo subject: Chemistry and English
矩阵:一组不同浓度组合的混合溶液测得的光谱集合矩阵:一组不同浓度组合的混合溶液测得的光谱集合 矢量: 一条光谱 矩阵的秩:对于A(m×n), 其秩是A中 最大线性无关的行数(或列数)。 秩为几?三种组分,吸收光谱各不相同(s1,s2,s3) 6组溶液,各组分浓度不同 吸光度矩阵A(20×6) 秩=组分数? Rank =Number of Eigenvalue 秩=不为0的特征值的数目
BACK Eigenvalue 特征值 奇异值分解法:Y=USVt S: 对角矩阵,收集了Y的特征值 U: 标准列正交矩阵(Scores Matrix) Vt:标准行正交矩阵(Loadings Matrix) 用Matlab 很方便!一句话!
2. PCA 主成分分析Principal Component Analysis 2.1 目的1 2.2 基本步骤2 2.3 应用实例3
BACK 2.1 主成分分析(PCA)的目的 现代仪器获得两维数据(矩阵) 矩阵处理 确定秩为多少 定性 确定复杂分析体系中的物种数 PCA的目的-定性 有几种物种species
Max BACK 2.2 PCA的步骤 Y=USVt 矩阵分解 收集特征值 在S中 真实误差法 比较RSD与RE 特征值比值法
= 10000×1 奖金10000元 5000×2 100×100 奇异值(SVD)分解 Single Value Decomposition Y=USVt 1×10000 BACK 矩阵分解 NIPALS分解 分解成正交矩阵的乘积 Y=TP 怎么分解? 看了头大! S: 对角矩阵,收集了Y的特征值 U: 标准列正交矩阵(Scores Matrix) Vt:标准行正交矩阵(Loadings Matrix) 用Matlab 很方便!一句话!
+表示来自主因子 0表示来误差 = 真实误差法-确定主成分数d Y(m×n)有d个主成分 RE=RSD (剩余标准偏差) Residual Standard Deviation 真实误差RE (Real Error,可以知道)
RSD与实际误差 是否吻合 判断标准 d=d+1 No d=1 RSD(d)≤RE BACK 确定或设定RE d=1…n-1计算RSD(d) YES 此时d即为主成分数
表示最小成分信号的λ 表示最大噪声信号的λ BACK 相邻特征值比值法 显著差异 出现最大值时 相应的d
BACK 2.3 PCA的应用实例 混合色素中 组分数的确定 反应过程中 组分数的确定
PCA结果 3 0.6145 64.0 0.0017 一组食用色素混合溶液 测得吸光度矩阵Y15×6 组分数 nc=3 722的噪声水平0.002
同样的样品 用Agilent 8453 PCA结果 3 0.199 64.3 0.0004 组分数 nc=3 实际上有3种色素 胭脂红柠檬黄日落黄 噪声水平0.0002
判断操作者的操作水平 判断仪器的噪声水平 使用722 0.0010~0.0040 BACK PCA: 通常可以正确判定主成分数 反过来,已知主成分数时 根据RSD
实例讨论-for a chemical reaction Result:Rank=number of component=3 三种化学成分A、B、C,光谱线性无关 Model 1: Consecutive 1st order reaction
Matrix two-way data 光谱矩阵 S 动力学矩阵 Q 两维数据矩阵Y Y = QST
日落黄电解降解 最终产物 无吸收 有中间体吗?
PCA 结果 日落黄电解降解 组分数 d=2
PCA确定组分数 最终产物 有吸收 d=3
实例讨论 三种化学成分A、B、C,光谱线性无关 Model 2: nc=3, rank=2 Y = QST
Model 3:Parallel reaction 实例讨论 o1 B nc=3, rank=? A o2 o1= or ≠o2 C o1= o2=1 k2qB-k1qC=0 线性相关 rank=2
Model 3:Parallel reaction 实例讨论 o1 B nc=3, rank=? A o2 o1=0, o2=1 C dA/dt=k1+k2A dB/dt=k1 dC/dt=k2A 线性无关 rank=3
PCA确定组分数 Y = load('E:\Hp8453\BB\OH15.txt'); [U, S, V] = svd(Y); lmd=diag(S); n=size(lmd,1); for k=1:n-1 sumlmd=0; for j=(k+1):n sumlmd=sumlmd+lmd(j)*lmd(j); end RSD(k)=sqrt(sumlmd/(nw*(nt-k))); end
根据矩阵的秩确定化学成分数 No! 组分无吸收 亏秩! 谱线性相关 复杂!好大学问! 某组分信号太弱 BACK PCA:Conclusions
3.1 概念1 3. PCR 回归Principal Component Regression 3.2 基本步骤2 3.3 应用实例3 3.4 提醒3
主成分分析 因子分析 主成分回归 多元校正 PCA FA PCR MC BACK 3.1 PCR:概念 相似概念常常混用 步骤略异侧重不同 定量 PCR多元校正之一 解决多组分同时测定问题
实验测量数据矩阵 Size: nw×ns 吸光系数矩阵 Size:nw×nc 混合浓度矩阵 Size:nc×ns 单样品 多样品 K-矩阵法 K-Matrix Method 3.2 PCR:基本步骤 数学模型 建模/校正 See next 预测 已知K,解出未知样浓度
BACK 3.2 PCR:基本步骤 SVD分解 • 与K矩阵法相比 • 仅一次求逆过程 • 剔除了主成分模型误差 • 系数矩阵P意义不明确 • 但用于预报是正确的 SVD分解 分离 重组 未知样 预报 广义 逆 建模
S Vt Y U nc=3 U后3列 Vt后3行 误差信息 剔除后 V *t S* 广义逆矩阵 Y0 U* Y :波长数nw=8; 溶液数ns=6; 组分数nc=3
多元线性回归MLR Multiple Linear Regression 已知C K-矩阵法 建模 相当于单波长单组分的工作曲线 ঔ矩阵除法即乘以其逆矩阵 ঔ方阵可求逆
多元线性回归MLR Multiple Linear Regression BACK K-矩阵法 建模 建模/校正(相当于单波长单组分的工作曲线) ঔ矩阵除法即乘以其逆矩阵 ঔ方阵可求逆
BACK 3.3 PCR:应用 光度法 多组分同时测定 速差动力学 多组分同时测定 电化学谱的分辨 及多组分测定 多元校正滴定 其他矩阵数据
3.4 PCR:注意 线性关系-比耳定律 加和性-共同响应,最好无协同 正交程度-波谱不严重重叠 标准集C-混合组成,不必纯组分 固定系列波长/电位/时间/pH/etc 矩阵行列-一一对应 一些作者报道了几乎完全线性相关的体系
Y(21×7) C(3×7) P=CY0+(7×21) BACK 3.4 PCR:编程 clear; nc=3; Y = load(‘Y_standard.dat'); C = load(‘C_standard.dat'); [nw,ns] = size(Y); Y_sample = load(‘Y_sample.dat'); [U, S, V] = svd(Y); U = U(:,1:nc); S = S(1:nc,1:nc); V = V(:,1:nc); % KEY STEP Pmat = C*V*inv(S)*U'; C_sample = Pmat*Y_sample 附数据,请解析
Welcome to Tongji University! Thank you for your attention! 2002.11.15