线性混合模型基础
线性混合模型(LMM)是遗传评估中必用的统计模型,用以将群体中每个个体的观测值按照潜在影响因素进行分解。决定观测值的大小和幅度受2个参数(均值和方差)控制,反过来说也可以。一般我们更关注方差,围绕方差的运算与处理也更为复杂,所以能够将LMM中涉及的方差们的关系搞明白,就大体能理解这些没什么亲和力的模型们了。通常在介绍这一部分内容时,很容易让人发蒙,因为太抽象了,全是符号,所以前提是必须对数学这门外语有一定了解,就是一门外语啊。比如告诉我一个矩阵的维度是4×5,我头脑里有概念,这是小学的数学知识学得好,但你告诉我它的维度是n×p,我的CPU和GPU就不太够用了,所以得像学习英语一样,方法+重复才是硬道理。
如果知道了这些方差们的具体数值,求算各个因素的系数(我们最终要的是这个)就相对容易多了。但这些方差是怎么计算的?一般会告诉采用了什么方法(REML用的多),但这又是什么我想很多人想知道但没人教,所以一直糊涂着,只停留在会用的地步,当然会处理数据也够用。我很有兴趣,但到今天我也不全会,也没有能力在R
中实现,原因是没那个功底,不会矩阵求导,盼望有一天谁来引领一下,但这不是刚需,因此参数求解就停在这里了。下面就我了解的知识对LMM做2部分的介绍,主要目的是自我梳理,学识有限,错误难免。
1. LMM的形式
这是基本形式,更复杂的都是在其基础上演变出来的。
式子里一共有6个字母,4个小写,2个大写。小写是向量(1维矩阵),大写是矩阵。这几个字母的意思分别是:
字母 | 名称 | 维度 |
---|---|---|
y | 观测值 | n×1 |
固定效应(p个水平) | p×1 | |
a | 随机效应(q个水平) | q×1 |
e | 随机残差 | n×1 |
X | 固定效应设计矩阵 | n×p |
Z | 随机效应设计矩阵 | n×q |
有几个假设
意思是和这2个向量的参数(均值和方差),均值都是0,方差分别是G和R,协方差是0(彼此独立,没有线性关系)。G和R具体又是什么?,。是随机效应中q个水平之间的关系矩阵(分子关系矩阵),如果水平间不相关(独立),那么就等同于单位矩阵。这里只假设是1个效应,也可以是含有多个效应的列向量;同样,在某些情况下,也可以继续分解R(如AR模型)。此外,观测值的期望是,方差(marginal)。期望比较容易理解,方差为何是这个形式?G左右为何乘以Z?很多材料没有给详细的推导式子。Mrode(2014,p35[1])中:
总之,一个普通LMM中的元素就这么多,了解了这些内容,才有可能看懂后续的似然函数以及参数具体的ML或REML过程。
2. BLUP最佳线性无偏预测
BLUP是预测随机效应的方法,对应的固定效应值的方法是BLUE【统计上,拟合模型阶段叫估计,预测阶段称预测;在LMM中,则分别指固定和随机参数的计算,目的是一样的——求解方程组】。
BLUP是上世纪50年代由Henderson提出,按照最佳线性无偏的原则求解混合模型方程组中固定和随机效应。混合模型方程组的形式如下:
如果我们假设残差方差是IID(对于所有观测值是相同和独立的,独立同分布),则可以将R矩阵作为因子。 在大多数应用中用下面的方程式会更方便:
于是:
其中,。
用REML等方法估计出方差,代入上面的方程组即可。
-
Mrode RA (2014) Linear models for the prediction of animal breeding values. CABI ?