投稿问答最小化  关闭

万维书刊APP下载

统计咨询:为什么我不建议随便用逐步回归法构建回归模型?

2023/3/29 10:52:36  阅读:182 发布者:

先说我的建议

1)如果你构建预测模型,逐步回归法可以用。

2)如果你只是是探讨影响因素,尽量不要用逐步回归法。你觉得自变量太多,那么在单因素分析时候就限制(P值较小者纳入多因素回归),而不是逐步回归法控制。

下文说理由:

现在很多人知道,回归分析要么用来探讨影响因素,要么可以用来构建预测模型。但是构建预测模型的文章毕竟少数,绝大多数只是为了探讨影响因素。

目前无论是哪个目的,国内很多人开展统计分析,构建回归模型筛选自变量,都喜欢用逐步回归法(向前、向后、双向)。我不知道是哪里的统计学教育出问题了,还是就是因为统计学老师自己都没有搞清楚?

事实上,逐步回归法是是给构建预测模型用的,不是探讨影响因素用的。它的目的是用最少的因子,成功构建出不差于全变量模型(通过用R^2-2倍对数似然值或者AIC等指标评价拟合效果),也就是通过软件的方法,筛选出有用的自变量,其拟合效果不差于全部自变量放入模型,而且较少的自变量个数有利于模型的构建(回归模型样本量对自变量个数有限制)。

但只是探讨探讨影响因素而非构建预测模型时,逐步回归法有什么优势?

1)有人说,逐步回归法可以减少冗余的自变量

其实,这不是好的解决办法。冗余的自变量有两套解决方案。第一,我们构建回归时候,在考虑哪些可能的影响因素时,就应该慎重考虑,不是所有阿狗阿猫都作为候选自变量开展回归分析,与结局变量“拉郎配”。

只有与结局变量可能存在着因果关系的变量,才推荐开展回归分析。这一点,是需要从专业上去考虑的。

第二,在统计分析的时候,若自变量个数很多,在单因素分析时就卡关,不随便纳入自变量进入最终的多因素回归模型。一般单因素分析P值较小者纳入回归模型。

2)逐步回归法可以把没有统计学意义的自变量淘汰出去,它们不应该留在模型中

这种理解是不对的!多因素回归可以允许P值大于0.05的自变量留在模型并报告出来吗?当然可以。而且也推荐呈现在最后报告中,以展现哪些有统计学意义,哪些没有统计学意义。

3)逐步回归法效果更好

不见得。逐步回归法优点在于把对因变量影响较小的都淘汰掉,自变量个数减少了,所以留在模型的自变量效应会增强!看起来变美好了。

这个前提是你自变量实在太多了。但是,这种情况是不多见的。如果回归分析放入太多的自变量,那么逐步回归法也挽救不了你。

4)有人说,逐步回归法可以处理多重共线性

很多时候,由于自变量存在着高度相关。这个时候,连教科书都推荐试试逐步回归法呀!

这种做法其实很要命!这是一种完全无视数据特点,强行胡乱进行自变量筛选的一种方法。

为什么有多重共线性?多重共线性往往由于变量之间存在着关联性,这种关联性有几种情况:

第一,这个变量是混杂变量,由于混杂变量与自变量相关,所以造成部分共线性

第二,这个变量是中介变量,中介变量也会造成自变量相关

第三,变量是同个东西。比如年龄这一定量变量和根据年龄进行分组产生年龄的等级变量,那么原先的年龄定量数据和等级变量的年龄就是高度相关,如果它们一同纳入模型,就会造成共线性

第四,一个事物的两个属性,比如身高与坐高,相关高度相关,如果,如果他们一同纳入模型,就会造成共线性

实际上,除了第一点之外,我们在处理多重共线性时,典型的方法是排除造成多重共线性的变量。比如身高坐高在回归分析应该21,定量年龄和分类年龄应该21,中介变量不能纳入模型。

逐步回归法解决不了真正复杂的多重共线性,但会给你一种假象:我用了逐步回归法,所以我的结果很可靠!实际上,当你忽视自变量之间的关系属性而直接应用逐步回归法, 统计分析结果结果不太会好看。

所以这么说来,逐步回归法在回归模型探讨影响因素的过程中,都不是主要的策略。

1)所建立的回归模型要能够成功构建,不能因为自变量过多而导致失败(逐步法不是主要策略)

2)所建立回归模型不需要所有自变量都有统计学意义,因为这不是预测模型(不需要逐步法)

3)所建立回归模型中,关键指标无论是否具有统计学意义,都应该在模型中(不应该逐步法)。

4)所建立的模型,应该认真中介变量带来的影响,可能要排除中介变量(应该人为剔除中介变量,或者采用中介分析)。

5)所建模型尽量避免多重共线性(更推荐人为剔除造成多重共线性的变量)。

此外,由于逐步回归法筛选自变量纳入模型的方式不是P值小于0.05才留在统计模型中,而是R^2-2倍对数似然值或者AIC等指标的改变来做出决定,于是有些时候P值大于0.05,还留在回归模型,那就不尴不尬了。

没错!逐步回归法后可能会出现P值大于0.05的自变量还留在模型中,你说这个自变量到底最后是留还是不留?P值大于0.05的自变量要不要写在报告里面呢?明明没有统计学意义。

所以,我的建议是:

1)如果你构建预测模型,逐步回归法可以用。

2)如果你是探讨影响因素,尽量不要用逐步回归法。你觉得自变量太多,那么在单因素分析时候就限制(P值较小者纳入多因素回归)。

如果普通归得不到你想要的,那么逐步回归法也不会给你想要的!

转自:“医学论文与统计分析”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com