700 likes | 1.12k Views
第七章 个体遗传评定 —BLUP 法. 第一节 有关基础知识. 第二节 BLUP 育种值估计. 第三节 遗传参数估计的 REML 方法. 第一节 有关基础知识. 矩阵代数基础. 纯量、矩阵和向量 纯量 ( scalar ) 只有大小的一个数值,也称为标量、数量或元向量。 用数字或经定义的拉丁字母斜体、小写表示。 如 a 、 r 和 k 。. 矩阵 (matrix) 由一定行数和一定列数的纯量,按一定顺序排列的表。 一般用 大写粗体字母 表示。
E N D
第七章 个体遗传评定 —BLUP法 第一节 有关基础知识 第二节 BLUP育种值估计 第三节 遗传参数估计的REML方法
第一节 有关基础知识 矩阵代数基础 • 纯量、矩阵和向量 • 纯量(scalar) • 只有大小的一个数值,也称为标量、数量或元向量。 • 用数字或经定义的拉丁字母斜体、小写表示。 • 如a、r和k。
矩阵(matrix) • 由一定行数和一定列数的纯量,按一定顺序排列的表。 • 一般用大写粗体字母表示。 • 矩阵的阶数 (order) 或维数(dimension)是指矩阵的行数 (m) 和列数 (n) ,表示为m n。 • 例如:
向量 (Vector) • 仅有一列或一行的矩阵,前者称为列向量(column vector),后者称为行向量(row vector)。 • 通常用小写粗体字母表示。 • 为区别行向量和列向量,通常在字母的右上角加一撇表示行向量,不加撇表示列向量。 • 行向量的阶数为1j,列向量的阶数为j1。 • 例如:
一些特殊矩阵 • 方阵(square matrix):行数与列数相等的矩阵,如An×n。其他矩阵称为直角阵(rectangular matrices) 。 • 对称阵 (symmetric matrix):元素间满足 aij = aji 的方阵。
三角阵(triangular matrix): • 上三角阵:主对角线以下元素全部为0,即当 j < i 时, aij= 0 (j < i) • 下三角阵:主对角线以上元素全部为0,即当 j > i 时, aij= 0 (i < j)
对角阵 (diagonal matrix):除 i=j 时的元素(主对角线元素)外,其它元素均为零的方阵,即aij= 0 (ji 时)。通常可以用Diag {aj}表示,其中aj 为该阵的第 i 个对角线元素。 • 单位矩阵(identity matrix):所有对角线元素为1,其他元素均为0的矩阵。
分块矩阵(block matrix):用水平和垂直虚线将矩阵分为若干小块,此时的矩阵称为分块矩阵。其中的小块称为子阵(sub-matrix)。
分块对角阵 (block diagonal matrix):主对角线上的子阵都为方阵,其余子阵都是零阵的分块阵。如: • 稀疏矩阵 (sparse matrix):设矩阵Amn中有 s 个非零元素,若 s 远远小于矩阵元素的总数 (即s<<m×n),则称A为稀疏矩阵。
例如: • 矩阵的运算 • 加法(addition):当矩阵A和B同阶时,有: • 对于 m n 阶矩阵 A、B和 C,具有如下性质: • 闭 合 性:A + B 仍然是一个 m n 阶矩阵; • 结 合 性:(A + B) + C = A + (B + C); • 交 换 性:A + B = B + A; • 加性等同:A + 0 = A; • 加 性 逆:A + (−A) = 0 。
乘法 (multiplication) • 纯量与矩阵相乘:一个纯量 与一个矩阵 A 的乘积是用 去乘 A 的每个元素,表示为A。 • 对于m n 阶矩阵 A 和 B以及纯量 和 , 具有如下性质: • 闭 合 性: A 仍然是一个 m n 阶矩阵; • 结 合 性:()A = (A); • 分 配 性:(A+B) =A+B; • (+) A=A+A; • 等 同 性:1A = A。
其中, • 矩阵相乘:当矩阵A的列数与矩阵B的行数相等时,A与B可乘,即 例如: • 矩阵乘法具有如下性质: • AB BA • (AB)C = A(BC) • (A + B)C = AC + BC;C(A + B) = CA + CB
转置(transposition):矩阵的行与列对调,用A´或AT表示,即:转置(transposition):矩阵的行与列对调,用A´或AT表示,即: • 矩阵的转置有如下性质: • 当A为对称方阵时, A´ = A; • (A´) ´ = A • (AB) ´ = B ´A ´ • (AB ´ C) ´ = C ´BA ´ • (A + B + C) ´= A ´ + B ´ + C ´
则 设: • 矩阵的迹 (trace):一个方阵的迹为其对角线元素之和,表示为: 迹的运算性质:
范数 (norm):矩阵与其转置矩阵乘积的迹的平方根,即: • 范数的性质: • ||A|| > 0,除非A = 0;||A|| = 0 ⇐⇒ A=0 • ||kA|| = |k| ||A||(k为一纯量); • ||A+B||≤||A||+||B|| • ||AB||≤||A|| ||B||
对任意 n阶矩阵A , 称 为A 的伴随矩阵。其中,Aij是A 中元素aij的代数余子式。 • 逆矩阵 (inverse matrix):对于一方阵A,若存在另一矩阵B,使得AB=BA=I,则称B为A的逆矩阵,并表示为A–1,即A–1 A=I。 其中,A*是A的伴随矩阵。 • A–1存在的先决条件: • A必须是一方阵; • A的行列式|A|0,即A为非奇异阵。
非奇异阵也就是满秩矩阵 :对于方阵A,如果存在一个同阶的方阵B,两方阵的积为单位阵, 则称方阵A为满秩方阵或非奇异阵。 • A–1具有如下性质: • A–1A=AA–1=I; • A–1是唯一的; • ; • (A–1) –1 =A,因而也是非奇异阵; • (A–1) ´ =(A´) –1; • 如A为对称阵,则A–1也是对称阵; • 若A、B均可逆,则(AB)–1 =B–1 A–1。 如果 n 阶矩阵A的行列式│A│≠0,则称A是非奇异阵;否则,称A为奇异阵。
广义逆 (generalized inverse):对于任一矩阵A,若有矩阵G,满足: • AGA = A • 则称G为A的广义逆,记为A¯,即 • AA –A = A • 广义逆的性质: • 若A为方阵且满秩,则A¯ = A –1; • 对于任意矩阵A, A¯必存在。
Kronecker乘积(或直积, direct product) • 设 和 分别为 mn 和 pq 阶矩阵,定义 ,称为 A 和 B 的Kronecker乘积或直积,记为 。即:
直积的有关性质: • 0A=A0=0 • (A1+A2)B=(A1B)+(A2B) • A(B1+B2)=(AB1)+(AB2) • ( A)( B)= (AB) (、 均为纯量) • (A1B1)(A2B2)=(A1A2) (B1B2) (如A1与A2、B1与B2可乘) • (AB)′=A′B′ • (AB)-1=A-1B-1 (如A、B均可逆) • (x′ y)′=y x′=yx′
Hadamard乘积:两个矩阵A和B的元素间相乘,要求A和B同阶。用*表示:Hadamard乘积:两个矩阵A和B的元素间相乘,要求A和B同阶。用*表示:
其数学期望: ,且具有如下性质: (k为一常数) (X、Y相互独立时) • 其方差:, 且具有如下性质: (X、Y相互独立时) (称为X和Y的协方差) 随机变量的期望值和方差 设X为一随机变量,则:
V的对角线元素为n个变量的方差;非对角线元素为变量间的协方差。V的对角线元素为n个变量的方差;非对角线元素为变量间的协方差。 随机向量 x的期望 向 量 x 的方差-协方差矩阵 将上述内容推广至多个变量。设x1, x2, xn为 n 个随机变量,则:
动物育种中常用的是表型方差-协方差矩阵V、遗传方差-协方差矩阵G和残差方差-协方差矩阵R。动物育种中常用的是表型方差-协方差矩阵V、遗传方差-协方差矩阵G和残差方差-协方差矩阵R。
个体 i 和 j间的加性遗传相关。计算公式: 个体 i的近交系数加1。即: G阵的构建需要一个由个体间亲缘相关系数组成的矩阵A,该矩阵称为加性遗传相关矩阵。由于它是由Wright计算近交系数公式中的分子计算而得,故又称为分子血缘相关矩阵。
式中: 和 分别为个体i的父亲和母亲; 和 分别为个体j 的父亲和母亲; 为 和 间的加性遗传或亲缘相关系数。若个体i 的一个亲本或双亲未知, 。 和 分别为个体i与 和 间的加性遗传相关。 未知时, ; 未知时, 。 A阵元素计算机计算的递推公式:
线性模型基础 • 模型 (model) • 模型:指描述观察值与影响观察值变异性的各个因子间关系的方程式。 • 因子:影响观察值的因子也称为变量 • 变量可分为离散型变量(变异不连续)和连续型变量; • 离散型因子分为固定因子和随机因子两类; • 连续性变量通常作为协变量看待。
固定因子与随机因子:与抽样和目的有关 • 固定因子(fixed factors):抽取因子的若干特定水平、水平数相对较少、研究目的是要对这些水平的效应进行估计或比较。 • 随机因子(random factors):因子的各水平是其所有水平的一个随机样本、水平数相对较多、研究目的是要对该样本去推断总体。 • 固定效应与随机效应 • 固定效应 (fixed effects):固定因子各水平对观察值的效应。 • 随机效应 (random effects):随机因子各水平对观察值的效应。
线性模型 (linear model) • 定义:模型中所包含的各个因子是以相加的形式影响观察值,即它们与观察值的关系为线性关系。 • 组成:一个完整的模型应包括3部分内容: • 数学方程式(或数学模型式)及其解释; • 模型中随机变量的数学期望、方差协方差; • 建立模型时的所有假设和约束条件。
例7.1: • 模型中每个参数的解释 • yij :第 i 个日龄组的第 j头肉牛的体重, 为观察值; • :总体均值,是一常量; • ai :第 i 个日龄组的效应,为固定效应; • eij :随机误差或残差效应。 • 随机变量的期望、方差及协方差
约束与假设 • 所有犊牛都来自同一个品种; • 母亲年龄对犊牛体重无影响; • 犊牛的性别相同或性别对体重无影响; • 除日龄组外的其他环境条件相同。 • 对每一观察值建立方程式
日龄组 1 2 3 4 观察值 残 差 y11=198= + a1 +e11 y12=204= + a1 +e12 y13=201= + a1 +e13 y21=203= + a2 +e21 y22=206= + a2 +e22 y23=210= + a2 +e23 y31=205= + a3 +e31 y32=212= + a3 +e32 y33=216= + a3 +e33 y41=225= + a4 +e41 y42=220= + a4 +e42 1 2 3 4 日 龄 组 个 体
a1 a2 a3 a4 y11 =198= + a1 + e11 y12 =204= + a1 + e12 y13 =201= + a1 + e13 y21 =203= + a2 + e21 y22 =206= + a2 + e22 y23 =210= + a2 + e23 y31 =205= + a3 + e31 y32 =212= + a3 + e32 y33 =216= + a3 + e33 y41 =225= + a4 + e41 y41 =220= + a4 + e42 y a e
关联矩阵:又称设计矩阵或发生矩阵。指示 y 中的元素与 a 中元素的关联情况。 a1 a2 a3 a4 y a X
模型的矩阵表示: 式中,y为观察值向量,a为固定的日龄组向量,e为随机残差效应向量,X为a的关联矩阵。且有: 其中,I 为单位矩阵,σ2为观察值的方差。
线性模型的分类 • 按模型中各因子的性质分类如下: • 固定效应模型 (fixed effect model):模型中除随机残差外,其余所有效应均为固定效应。 • 随机效应模型 (random effect model):模型中除外,其余的所有效应均为随机效应。
混合效应模型 (mixed effect model):模型中除和e外,既含有固定效应,也含有随机效应。 式中:y—观察值向量; b—固定效应(包括)向量; u—随机效应向量; e —随机残差效应向量; X—固定效应的关联矩阵(设计矩阵或发生矩阵); Z—随机效应的关联矩阵(设计矩阵或发生矩阵)
第二节 BLUP育种值估计 • 背 景 • BLUP法是基于克服传统选择指数法的缺点的。 • 选择指数实质上就是育种值的估计值。 • 选择指数法假定不存在影响观察值的系统环境效应,或者这些效应已知,可以对观察值进行事先校正,则选择指数是育种值的最佳无偏估值。但是这一假定几乎不能成立。 • BLUP的基本思路是在估计育种值的同时对系统环境效应进行估计和校正。 • 根据这一思路,BLUP法必须基于混合模型。
最佳 (Best):估计误差方差 最小; • 无偏 (Unbiased):估计值无偏,即估计值的期望值就是真值, ; • 基本原理 • BLUP的涵义:BLUP是Best Linear Unbiased prediction的首字母缩略词,既最佳线性无偏预测。其中: • 线性 (Linear):估计值是观察值的线性函数; • 预测 (prediction):是可以对随机效应进行预测。 通常,对固定效应称估计,对随机效应称预测。
混合模型(Mixed model) 式中,y—观察值向量;b和u分别为固定效应和随机效应向量;e为随机残差向量;X和Z分别为b和u的关联矩阵。且有: 这里是假定固定效应与随机效应间无互作。育种中是假定遗传与环境间无互作。
(1) 解向量s 系数矩阵 C 右手项r 注意:尽管MME的解中有V-1,但MME中没有,直接求解MME便可,即 。 C-1可用分块矩阵表示为: • 混合模型方程组(MME) MME的解:
一个个体时: • n 个个体时: 单性状无重复观察值的动物模型BLUP • 模型表达式 y为个体的观察值;bj为第j个固定效应;a为个体的随机加性遗传效应;e为随机残差效应。 式中,y= 表型观测值向量 b= 为固定环境效应向量 X= 固定环境效应b的关联矩阵 a= s个个体的随机加性遗传效应向量 Z= 随机遗传效应a的关联矩阵,当a中的所有个体都有观测值时,即s=n时,Z = I e= 随机残差效应向量
其中:为加性遗传方差;为随机残差方差;A为待估个体间的加性遗传相关矩阵(additive genetic relationship matrix),即分子亲缘相关系数矩阵(numerator relationship matrix)。 随机效应a和e的数学期望为: 随机效应a和e的方差-协方差矩阵分别为:
(2) • 混合模型方差组(MME) 与(1)式相比,(2)式是在(1)式两边同除了一个R-1变换而来。 式中,A-1 = A的逆矩阵 X′= X 的转置矩阵 Z′= Z 的转置矩阵
其中, 为固定效应的BLUE值; 为随机效应的BLUP值。 为系数矩阵的逆矩阵。 也可表示为: • MME的求解
用估计育种值与真实育种值之间的相关系数 来度量,其计算公式为: 式中, 为 中与个体 i 对应的对角线元素。 • 个体育种值估计的准确度 (Accuracy, ACC) • 当个体 i为非近交个体时: • 当个体 i为近交个体时: 式中,fi为个体 i的近交系数。
Relationship between true BV and EBV for three accuracy values, r= 0.8, 0.5 and 0.3
对育种值估计准确度的进一步理解 • 个体某一性状的真实育种值只有一个,而且永远不变。 • 个体的估计育种值则与信息来源和信息的多少密切相关,并随之变化。 • 一般而言,利用的信息越多,准确度越大。 • 准确度还是育种值估计中利用信息多少的一个度量。它表明了当拥有更多信息时,EBV变化的可能性。 • 随着准确度的提高, EBV的变化减小。
估计育种值与真实育种值之间的相关系数 的平方 称为估计育种值的可靠性。 可靠性是一个决定系数,是对真实育种值变异中由估计育种值说明的变异部分( )的一个度量。 PEV是育种值预测时对误差大小的一个度量。 PEV是对真实育种值变异中未由估计育种值说明的变异部分 ( ) 的一个度量。 • 估计育种值的可靠性 (Reliability) • 预测误差方差(Prediction error variance, PEV)
当个体 i为非近交个体时: • 当个体 i为近交个体时: • 预测误差标准差 (Standard error of prediction, SEP) 育种值估计的准确度可由预测误差方差计算