投稿问答最小化  关闭

万维书刊APP下载

五分钟理解最优尺度变换

2023/8/28 14:51:36  阅读:67 发布者:

以下文章来源于SPSS学堂 ,作者helloiamx

作者:夏睿  文章来源:SPSS学堂

在前面的文章中,我们学习到回归分析用于研究因变量和自变量之间的关系。其中,线性回归模型中要求变量为数值型。但现实问题中大量数据为分类变量。

比如某有序多分类变量被分为四个类别:“爱着”、“爱过”、“感到喜欢”、“感到恶心”,如果直接将其编码为4321,直接作为自变量纳入分析,就等于是假定这四个等级之间的差距完全相等,或者说它们对因变量情感幸福指数的数值影响程度是均匀上升/下降的,很明显,这种假定是不合理的。

再比如某无序多分类变量:不想过年的因素,被分为五个类别:“被问成绩”、“被问年终奖”、“被催搞对象”、“被催生小孩”、“被催生二胎”,这五个类别之间根本不存在数量高低之分,如果简单将其编码为12345,也就假定了它们之间存在高低差别,且类别之间差距相等,显然这种假定也是不合理的。

针对上述这些情况,我们可以采用两种办法来解决:①设置哑变量,②最优尺度回归

什么是最优尺度变换

所谓最优尺度回归,即基于最优尺度变换的回归。最优尺度变换专门用于解决在统计建模时如何对分类变量进行量化的问题。其基本思路是基于希望拟合的模型框架,分析各级别对因变量影响的强弱变化情况,在保证变换后各变量间的联系为线性的前提下,采用一定的非线性变换方法进行反复迭代,从而为原始分类变量的每一个类别找到最佳的量化评分,使用这些量化评分代替原始变量进行后续分析。

举例来说,通过上面的理解我们得知,将“优”、“良”、“中”直接赋分为321是不合理的,而通过最优尺度变换,就可以为每个类别赋予一个适当的、最佳的量化评分,该评分的高低可以很好地反应各个类别间的差距。比如“优”为4分,“良”为1分,“中”为0.5分,这就说明等级从“良”变为“优”时,对因变量数值的影响大约是从“中”变为“良”的6倍。

同理对于无序多分类自变量,经过最优尺度变换也可以用评分表示各类别之间的差异,评分近似则表示对因变量的影响程度相近,反之评分相差越大,对因变量影响程度的差异也越大。

应用最优尺度变换的注意事项

1)样本量应当较大(这是该方法唯一的适用条件)

由于最优尺度变换是对分类变量各类别求出最佳量化评分,只有各类别的样本量较多时才能保证相应评分的准确性和稳定性。

2)变换结果和模型有关

注意我们在上面是这样介绍最优尺度变换的:“基于希望拟合的模型框架,分析各级别对因变量影响的强弱变化”。也就是说,最终的量化评分受到希望拟合的模型的影响,变换所得的量化评分仅仅在当前模型框架中为最优,如果模型发生改变,比如引入了新自变量,或者其他变量的测量尺度进行了更改,那么量化评分的结果也会发生改变,有时改变会较大。

3)最优尺度变换是一种很好的预分析手段

它主要给出的是变换后评分的分析结果,许多有用信息被隐含在变换过程中,加之其原理较难理解,结果在直接应用上有一定困难。因此可将其作为一种预分析手段,通过它快速发现各类别间的差异和联系,然后回到其他更易于理解和使用的分析结果。

什么是最优尺度回归?

最优尺度变换是一种非常有用的方法,如果被用于线性回归则称为最优尺度回归(最优尺度变换的应用范围不仅限于回归)。

最优尺度回归的本质,即基于模型效果最优化的原则,首先对原始变量进行变换,将各变量转换为适当的、最佳的量化评分,然后使用量化评分代替原变量进行回归分析。(也就是先对分类变量进行最优尺度变换,然后用变换所得的量化评分进行回归分析)

总结

在本文中,我们学习了最优尺度变换的概念、在什么情况下使用、使用时的注意事项,以及最优尺度回归的概念。

在接下来的文章中我们将学到:最优尺度回归的案例操作、最优尺度回归的结果解释。

参考文献:

张文彤,董伟.SPSS统计分析高级教程.第二版

转自:“量化研究方法”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com