当前位置: 模型材料 >> 模型材料介绍 >> 混合效应模型初探之二非线性混合效应模型
这是本系列的第二期,疫情原因清明假期几个晚上的劳动成果。今天整理一下,作为非线性混合效应模型处理的第一篇。因为职业关系,数据使用二氧化碳响应曲线的数据。同样声明,作为非专业人士,仅仅是个人对相关材料的理解,如有谬误,敬请指正。
非线性混合效应模型线性混合效应模型非线性混合效应模型实际上应该是在线性混合效应模型基础之上的理论,所以我们先在梳理一下线性混合效应模型,再进一步看一下非线性混合效应模型。LairdandWare()介绍的线性混合效应模型的形式为:
其中:
响应向量
固定效应的设计矩阵,可以理解为p个分组,每个分组
固定效应的回归系数,这是对所有分组一致的。
随机效应的设计矩阵,理解类似固定效应的设计矩阵。
随机效应的向量。这是在组间有差异的系数。
误差向量
模型随机组分的假设为:
这表示组间的随机效应。
这表示组内的系统误差。如果线性代数忘干净了,D表示对角矩阵,表示的是组与组之间的差异是独立的有差异的(随机效应不同)。而I表示单位矩阵,表示系统误差对所有样本是一致的。
实际应用中,我们遇到的数据并不总是如我们期望的那样呈简单的线性关系,总会遇到数据点呈现非线性的情况。那再使用线性模型就不合适了。
非线性混合效应模型当分组数据具有非线性的期望函数的时候,这意味着我们的随机效应包含在了系数内,并且期望函数在随机效应方面也是非线性的。非线性混合效应模型给出的形式为(J.Pinheiro,Bates,andLindstrom):
其中:M是分组的数量n~i~是第i个分组的观测值的数量f是可微分组特定参数向量
和协变量
的函数。
是模拟的线性混合效应模型
,其中
表示固定效应的向量而b~i~表示与分组i相关的随机效应的向量
,表示误差。
当然了,如果看不懂这个复杂的一堆表达其实也不难明白他是做什么的,跟广义线性模型使用连结函数使得自变量和变量呈线性的形式比较一致,这里也是使用了相同的方法使得非线性关系呈现线性的表达。这里使用这种表达,拓展了线性混合效应模型的假设,可以使用更自由的函数形式。
此处应有分割线:
数据介绍Potvin,Lechowicz,andTardif()中进行了一个C4草本植物Echinochloacrusgalli耐低温的实验。测量的是来自不同地区的植物的
吸收,也就是我所熟悉的光合领域的实验,我使用这个例子的数据进行相关的非线性混合效应模型处理的演示。J.C.PinheiroandBates()的内容也有这个分析的一个简单的演示。
实验的样品分别来自密西西比和魁北克,然后在气候室内进行培养,在进行相关处理前,所有植物长势一致。其后对照组植物仍然在26摄氏度下培养,而处理组则接受7摄氏度的日间低温。其后经过一整夜的20摄氏度的恢复后测量二氧化碳响应曲线。我们看一下数据:
library(nlme)df=CO2
这里展示部分数据(5-15行):
PlantTypeTreatmentconcuptake5Qn1Quebecnonchilled.36Qn1Quebecnonchilled.27Qn1Quebecnonchilled.78Qn2Quebecnonchilled.69Qn2Quebecnonchilled.Qn2Quebecnonchilled.Qn2Quebecnonchilled.Qn2Quebecnonchilled.Qn2Quebecnonchilled.Qn2Quebecnonchilled.Qn3Quebecnonchilled.2表头的意义分别为;
uptake:二氧化碳的同化速率
conc:外部二氧化碳浓度mL/L
Plant:根据植物的来源地和处理进行的编码,因子类型变量
Type:实际上的植物来源地
Treatment:顾名思义,处理的类型
认识数据正式开始之前我们还是好好认识一下数据的基本情况。
通过图形查看首先我们通过图形来简单的认识一下这个数据集:
plot(df,outer=~Treatment*Type,layout=c(4,1))
对于这个作图语法,各位没用过的先不要懵,这是nlme基于lattice的plot方法,可以参考?plot.nmGroupedData。
言归正传,数据已经很清楚了,两个地区的相同物种的草本对冷的耐受不同,位于漂亮国北部的枫叶国的草本看上去是更耐冻的,这应该很正常,但即便如此,枫叶国的植物相比正常处理的,看整体的光合水平看上去偏低。至于漂亮国的更是如此。
这里职业病发作一下,没有趁手的仪器做出的二氧化碳响应曲线数据真的不行啊,因为那时候还没有LI-,更不用提LI-了。
从图上可以明显的看出这不是一个简单的线性关系,所以我们需要使用非线性拟合的方式来操作,Potvin,Lechowicz,andTardif()使用了一个简单的指数模型来进行拟合:
为保证速率常数为正,很多地方,例如C.PinheiroandBates()采取了指数形式的写法:
其中:
表示渐近线,也就是一个最大的光合速率值。
对数速率常数(log-rateconstant,lrc),使用这种形式保证了优化过程不受限制,对数化的形式保证了该值是正直(
),生物学上才有意义,这个数值实际上应该是羧化速率和相对电子传递速率的反映。
生物学意义表示二氧化碳补偿点。
分组数据及groupedData类这是一个典型的分组数据实验:
这里我们
转载请注明:http://www.aideyishus.com/lkyy/32.html