计算机系统应用教程网站

网站首页 > 技术文章 正文

R与医学统计学·系列 | 医学统计学分析之多元线性回归

btikc 2024-10-25 10:52:58 技术文章 6 ℃ 0 评论

之前介绍了如何在R语言中实现简单线性回归(一元线性回归),但是在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。


一、基本概念


多元线性回归分析是很常用的多因素统计分析方法,用于建立多个自变量与1个因变量之间的线性关系模型。多元线性回归分析中回归系数的估计通过最小二乘法(method of least square)实现,即寻找适宜的系数使得因变量残差平方和达到最小。多元回归模型的数学表达式为:



其中,Y是因变量,x…,xp 是自变量,β0,β1,…,βp 是回归系数,? 是误差项。


其应用主要包括三个方面:

(1)探索对因变量有影响的因素;

(2)控制混杂因素,评价自变量对因变量的独立效应;

(3)用自变量估计和预测因变量的值及其变化。样本量要求通常为:样本量至少应是自变量个数的5~10倍。


二、模型检验


常用的假设检验包括F检验和t检验,用于检验模型整体显著性和单个回归系数的显著性。评估指标:使用R平方、调整后的R平方、MSE、RMSE等指标评估模型。假设检验:检查多元线性回归假设是否满足(线性关系、独立性、正态性、同方差性)。


三、R实操


主要运用函数 lm(),这里使用ISwR 包中的cystfibr数据做示例:



大家注意回归结果中各变量的P值,可以发现很多变量的P值是没有统计学意义的,而且没有判断各自变量是否有多重共线性的问题。多重共线性是说纳入回归模型的各大自变量之间本身就具备较密切的相关性,会导致模型失准。这时候就需要进行多重共线性诊断及变量筛选了。



多重共线性的常用解决方法为逐步法,即我们经常提到的多元逐步线性回归。遇到多重共线性问题,最常用的办法就是进行逐步回归。step函数可以自动采用逐步法筛选模型。



逐步回归后获得了模型2,最后进入回归模型的仅2个变量:sex、bmp,变量都有统计学意义,而模型1虽有5个变量,但仅1个有统计学意义。可以看到,模型1仅解释38.4%(调整后R2)的变异,而模型2可以解释46.2%的变异。


还可以看看两个模型的AIC, AIC越小表示模型越好:



四、结果解读


① 总结:模型2确实比模型1好,使用模型2进行解读。

② sex与bmp是fev1的影响因素,可以解释46.2%的总变异;

③ sex1(女性)的fev1比男性平均低10.2100。

④ bmp每提高1,fev1会提高0.4495。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表