707篇定量论文中的秘密：社会学定量研究30年

2023/2/27 14:36:23　阅读：154　发布者：

摘要:梳理《社会学研究》1986—2016 年30 间刊载的707 篇定量研究论文，回顾和研究我国社会学重建以来定量研究的整体发展历程，可以发现， 30 年来我国定量社会学研究在题材方面，社会分层和流动、婚姻家庭等传统议题占据主导; 在方法方面，呈现出从描述比较走向回归分析、从统计关联走向因果推断、从单模型走向多模型的趋势; 在数据方面，有从小样本到大样本、从截面到纵贯、从一国到多国、从一手到二手的发展特点; 作者队伍越来越专职化、地域集中化和国际合作化。总体上，我国社会学定量研究逐渐走向规范化、科学化，但也面临理论视野窄化、因果推断乏力及高级模型盲目运用等瓶颈，而重建理论思维、挖掘宏观数据、倡导纵贯分析、改革计量课程，则是走出瓶颈的重要努力方向。

关键词:定量社会学; 研究方法; 数据; 学科发展; 社会学研究

定量研究( Quantitative Ｒesearch) 又称量化研究，是一种“运用统计技术，考察事物量的规律性，从而把握事物性质的一种研究方法”。其着眼点在于用数量关系揭示事物的根本特征，从而使不确定的模糊的社会现象变得相对确定和明晰。定量研究自20世纪50 年代起在较短时间内积累起巨大的学术地位与学术声望，并迅速壮大为当代社会学领域最主流和最活跃的研究领域之一。中国社会学自 1979 年恢复以来，就迅速与国际社会学接轨，这使得定量研究在中国社会学重建之初就具有相当重要的地位。定量研究惯常采用的抽样问卷调查 ( 统计调查) 法自 20 世纪 80 年代初传入中国之后，改变了社会科学领域长期以来仅依靠 “解剖麻雀”等传统研究方法———即通过选取一个或几个典型个案，采用座谈会、访谈等方式收集经验资料，并利用一些当地已有的统计资料信息，以质性研究( Qualitative Ｒesearch) 分析法得出结论———的局面。经过近 40 年的岁月，定量研究在中国已获得了长足的发展。

《社会学研究》自1986 年1 月20 日创刊至今，一直是中国社会学界权威的学术刊物，代表了中国社会学界理论和经验研究的前沿探索和最高水平。本研究选择该刊物自1986—2016 年30 年( 实则31 年) 间所刊发的全部707 篇定量研究论文作为研究样本，分析梳理定量研究的发展轨迹、经验与不足。本研究不仅直观反映中国定量研究的发展脉络和研究水平，而且将对定量研究的规范化与科学化，以及中国社会学学科的进一步发展做简要分析。、

一、定量研究论文数量和题材演变

《社会学研究》在1986—2016 年间共刊发各类论文( 不含纪要、通报类文章) 2337 篇， ①其中共有定量研究论文 707 篇，占全部论文数的 30. 25%。定量研究所占全部论文比例分年份变化分布呈现波折发展的趋势。大部分年份的定量研究论文所占全部论文比例在20%—40%之间。占比超过40%的有1990 年、 2013 年和2016 年，比例分别为41. 18%、 41. 27%和41. 94%。就最近几年的数据来看，定量研究论文比例呈现出稳步上升的态势，并最终稳定在35%左右。

就题材来看， 707 篇定量研究论文覆盖社会学研究领域的方方面面，但主要集中于“婚姻、家庭、妇女及性别研究”、“社会分层与流动”、“经济组织和企业家”，以及“劳动者与职业安排”四大领域，其论文数量占比均超过 10%，总量占到全部定量研究论文数的 44. 84%。排在前两位的“婚姻、家庭、妇女及性别研究”以及“社会分层与流动”均为社会学研究的经典题材，几乎每个年份都有这两个领域的定量论文刊登。而“经济组织及企业家” 和“劳动者与职业安排”两个领域受到关注则和改革开放以来中国的现代化历程息息相关。20 世纪80 年代以来，产业调整、求职、下岗、失业、企业家、经理人、专业人士、打工者、农民工等计划经济中所没有的新社会现象和新职业群体，都成了社会学者关注的议题。相对而言， “老人与养老”、“医疗、健康与环境”、“犯罪与越轨行为”、“儿童与青少年”、“国际港澳台研究”、“种族、民族与宗教”，以及“文化研究”这七个领域则成为定量研究较少关注的领域，论文数所占比例均在 3% 以下，总占比只有 14. 00%。而这些主题，在当代国际社会学界却颇受关注。这其中既折射了中国发展的阶段性特征( 如老龄化问题刚刚得到学界关注) ，也说明定量研究的领域还需要进一步拓展。

二、定量研究方法的使用和演变

定量研究论文所使用的方法门类众多，经过了从简单到复杂的不断演变。我们在表2 中分三个十年分别进行了概括。考虑到同一论文可能同时使用两种以上方法，故基于方法的 “总篇次”不等于论文“总篇数”。单纯使用数据描述的定量分析论文比例在31 年间迅速从第一个十年( 指 1986—1995 年，下同) 的 95% 下降至第二个十年( 指 1996—2005 年，下同) 的50%左右，再至最后十一年( 指 2006—2016 年，下同) 的 10%。我们还进一步统计了定量研究方法的组合种类以及论文展示方式的变化，梳理出 30 年来《社会学研究》定量论文使用方法方面的几个特征:

1．模型估算方法的使用渐呈多元化。

在第一个十年，有10 篇次使用了简单一元或二元变量分析， 6 篇次使用了标准的最小二乘法回归，模型估算方法篇次与定量论文总篇数之比仅为0． 056( 16/285) 。而在第二个十年里，使用基本分析技术的研究篇次达到156，这一比例也增加到0． 817( 156/191) ，使用的具体方法也大幅增加: 二元分析中的列联表、方差分析、卡方检验以及点估计等等，以及多元回归及复杂方法中的逻辑斯蒂模型、因子分析、路径分析、事件史分析、多项逻辑斯蒂模型、多层线性模型、聚类分析等等都应运而生。在最后十一年里，新的研究方法数再次增加，模型估算方法篇次与定量论文总数比例变为 1． 35 ( 313/ 231) 。其中，在单方程模型中新增了负二项回归、 COX 比例风险回归、 Probit 回归、定序逻辑斯蒂回归、泊松回归、 Tobit 回归，倾向值匹配等，而在多方程模型中则增加了结构方程以及进行因果推断的工具变量方法、一阶差分方法、内生转换模型和倍差法

2．经典模型稳定地占据重要地位。

基于社会调查问卷数据，使用经典的线性或非线性计量模型( 诸如OLS、 Logit、多元或序次Logit 等) 进行变量关联的参数估算一直是占据主导地位的研究手段。这些模型简约而规范，且可通过多元变量的控制模式充分考察复杂多元的社会现象，它们经过多年的发展与使用，已经十分完善和标准化，迄今为止仍是中国社会学主流学术阵地中最经典的分析方法。例如， OLS 模型在估算模型类篇次里的比例一直保持在20%以上; 二元逻辑斯蒂模型以及多项逻辑斯蒂模型相加起来，达到 22%( 16% +6%);因子分析也是众多方法中使用率非常高的技术，接近 9%。此外，尽管在表中我们没有展示，针对这类经典模型进行的进阶分析也在最后十一年出现:交互项分析和中介变量分析的研究，分别有8 篇次和1 篇次，这标志着对经典定量模型的进一步精细化使用。

3．因果推断等复杂模型逐步出现。

进入 21 世纪以来，越来越多的新型高级定量方法———如因果推断、追踪调查、空间分析、大数据等———随着国际学术交流的增多被引介入中国，使得我国定量研究水平有了大幅提升。如表2 所示，在最后 11 年，出现了使用追踪数据的一阶差分方法、倍差法，也出现了利用外生变量的工具变量方法和内生转换方法，还有解决基于显变量自选择的倾向性匹配方法。因为倾向值匹配( PSM) 方法既不需要面板数据或倍差法那样的追踪资料，也不需要工具变量那样难以寻找的关键武器，因此使用较多，但也面临一个尴尬:使用者往往错误理解了 PSM 方法所能解决的问题:大部分使用者都声称 PSM 可以解决自选择的内生性问题，但实际并非如此。

4．多模型联合使用逐渐增多。

定量研究论文在31 年间的使用研究方法的种类从单模型到多模型，使用研究方法的种类越来越多 ( 如表1) 。在第一个十年里，只使用一种研究方法( 即描述统计) 的定量文章有 270 篇，占比 94. 74%。在第二个十年里，使用一种研究方法的定量文章有 96 篇，占比急剧下滑至 50. 26%，使用两种研究方法的文章从3. 51% 猛涨到 32. 98%，使用三种研究方法的也从 1. 40%增加到 14. 14%。在最后 11 年里，仅使用一种研究方法的定量文章仅有12. 55%，而使用多种研究方法的文章则继续上涨。

5．论文呈现方式进一步多样化。

定量研究论文在31 年间的表述方式从最开始时基本为文字表述，后过渡到文字表格为主，再到文字表格

结合，并呈现波折发展的趋势。在第一个十年里，使用文字和表格表述方式的文章有188 篇，占该时期定量论文数量的65. 96%，仅用文字表述的有 70 篇，占比 24. 56%; 使用文字、表格和

的表述方式的文章仅有 26篇，占比低于 10%。在第二个十年里，文字和表格形式的表述形式仍高居不下，占比高达 70. 16%，但是仅以文字形式表述的文章则跌至 5. 76%，文字、表格和

形式表述的文章上升到 23. 56% 。在最后 11 年里，文字和表格形式的定量文章下降到46. 32%，文字、表格和

形式的文章则继续上涨到52. 38%，而仅以文字形式表述的文章则非常少，仅占0. 86% 。在整个 31 年中，仅使用文字和

形式表述的文章均占比不到1%，是最不受欢迎的表述形式。

三、定量研究数据的来源和演变

数据对于定量研究至关重要。社会学定量研究强调社会调查，所使用的数据也大多属于调查数据。《社会学研究》 31 年间定量研究论文所使用数据的来源和演变可统计如下:

1．样本量使用逐渐增加，样本汇报逐渐规范。

从表2 统计可发现，31年间定量研究论文基本均使用较大样本，但在样本量使用上仍然呈现出从较小规模样本到中等以及大规模样本的转变。全部 707 篇定量文章中仅有 9 篇 ( 1. 27%) 使用较小样本，相反，有 457 篇论文使用较大样本进行研究，占 64. 64%。但相对于10000 以上的大规模样本而言，大多数研究仍然乐于使用中等规模的样本。除此之外，尚有240 篇论文未报告样本量，占全部定量文章的33. 95%。其中第一个十年里未报告样本量的论文有139 篇，比例高达 48. 77%，第二个十年下降至 35. 08%，而到了最后 11 年则仅有 14. 72%。由此可见，定量研究论文在汇报样本量方面经历了从不规范到规范的过程，研究者也逐渐意识到报告样本数量的重要性，对样本的介绍也越来越严谨。

2．数据范围由局部转向全国，使用国际数据有限。

如表3 所示，使用中国局部数据的定量论文最多(435 篇)，占论文总数的61．53%;不过，从发展趋势来看，却呈现出明显的下降趋势。使用中国全国数据的论文总共有236 篇( 占33．38%)，并随时间推移呈持续上升态势。由此可见，虽然就整体状况而言，使用局部数据的研究占大多数; 但从发展趋势来看，随着时间的推移，定量研究者越来越多采用全国数据，而使用局部数据的研究则越来越少。此外，统计还发现， 31 年内使用国外一国数据的论文仅有5 篇(占0．71%);另有31 篇 (占4．38%) 论文使用了包括中国在内的两国以上的数据来做研究。可见中国学者使用国外数据做研究的定量文章并不多见，仅有的少量论文也更多地体现在中外比较研究上。

3．截面数据的使用仍然是主流，缺乏纵贯和大数据研究。

统计发现( 如表3) ，使用截面数据的论文仍然占绝大多数，占68． 60%( 485 篇) ，遥遥领先其他数据的使用情况。使用时间序列的定量论文相对而言一直较少，徘徊在 5% 上下。而使用面板数据的论文则呈现出总体上升的发展趋势。可见，使用截面数据依然是我国定量研究的主旋律，而使用其他两种类型数据的论文还处在发展阶段。此外， 31 年间全部 707 篇定量论文中仅有1 篇使用了大数据，仅占全部文章数的0． 14%，其余所有研究均使用的是抽样数据。可见，大数据的使用兴起时间较晚，还尚未达至被研究者广泛使用的阶段。

4．自行搜集的一手数据使用减少，专业机构的官方数据使用增加。

从表3 最下方的统计结果来看，使用自行搜集的一手数据的论文占 32．96%，使用二手数据的则占63． 65%，混合使用一、二手数据的文章较少，仅占3． 39%。具体到三个阶段的发展来看，一手数据的使用呈现出明显的随时间发展而持续下降的趋势。可见，研究者越来越认识到:虽然自行收集数据有一定的优点( 如可按照研究者的研究目的收集必要的数据) ，但却不可避免地存在着样本规模小、抽样不严谨、耗时耗力等局限。因此随着时间的推移，采用自行收集数据做研究的学者越来越少。

随着高校或其他研究机构的调查能力逐步增加，通过正式官方发布的数据被越来越多的研究者所使用。从表4 可以发现，在全部定量文章中，使用官方数据的文章共有241 篇，占总数的 34． 09%，并在 31 年里呈明显的上升趋势。其中，使用中国综合社会调查数据 ( CGSS) 的论文最多，其次为使用统计年鉴及统计资料的论文，再次为使用人口普查数据的论文，而使用其他的官方数据的论文则很少。尤其值得注意的是，最后11 年间， CGSS 数据得到较为广泛地使用，结合论文主题来看，经典社会学研究更乐于使用 CGSS，如社会分层，教育等议题。

四、定量研究论文作者概况

1．高校教研人员日益成为定量研究主力。

定量研究论文的作者来源有很明显的向高等院校聚集的趋势。来自高等院校的作者占比从第一个十年的 30. 33%，到第二个十年的 54. 40%，继而涨至最后十一年的71. 79%。来自中国社会科学院和各省市社会科学院的作者也占了一定的比例，但总体上而言，其占比呈现下降趋势。来自于政府机构( 包括研究部门与非研究部门) 的作者比例则从第一个十年的 24. 63%占比迅速于第二个十年降至4. 00%，并在最后 11 年继续下降至 2. 78%。此外，就第一作者( 包括唯一作者，下同) 和非第一作者的统计来看，可以发现，非第一作者的人次数在 31 年间呈明显上升趋势，这表明在近些年定量研究的学者们越来越注重合作。

最后，我们还可以发现了一个有意思的现象:在第一个十年间有 4． 80%的定量研究论文源自专门的课题组，而课题组论文在第二个十年则下降到只占 1． 20%，最后 11 年就完全消失了。20 世纪八九十年代，中国还未有完善的如中国综合社会调查( CGSS) 式的全国性调查，那时的研究者为了全面了解当时的社会情况或某些特殊特征化群体，便建立了各种各样的课题组进行调查和研究活动，并在此基础上撰写定量研究论文。而随着定量研究越来越成熟，各种全国性的大规模调查和公开数据库也越来越多，对于这种课题组式的研究需求也就少了很多。这一变化也充分说明了中国社会学定量研究逐渐走向规范化与专业化。

2．定量论文发文集中于部分研究机构和作者。

统计显示，中国社会科学院以发文128 篇( 其中第一作者 126 篇，非第一作者 2 篇) 高居发文最多研究机构之榜首; 排名第二至五位的则分别为中国人民大学( 73 篇) 、北京大学 ( 53 篇) 、中山大学( 39 篇) 、南京大学( 29 篇) 。若以第一作者发文量计算，排名第一至五的也是上述五家机构。发文最多的作者则为朱庆芳和李路路，均发表 15 篇论文，排名第二的是风笑天( 10 篇) ，并列第三的是徐安琪和李强( 9 篇) ，并列第四位为刘欣和吴晓刚( 8 篇) ，并列第五则是胡荣、李春玲、张文宏、陈云松和边燕杰( 7 篇) 。但若以第一作者发文篇数为统计标准，则发表5 篇以上的有 14 位作者，依次为朱庆芳( 14 篇) 、风笑天( 10 篇) ，徐安琪( 9 篇) ，李路路( 9 篇) ，李强( 9 篇) ，胡荣( 7 篇) ，李春玲( 7 篇) ，张文宏( 7 篇) ，李培林( 6 篇) ，刘欣 ( 5 篇) ，边燕杰( 5 篇) 、陈云松( 5 篇) ，周大鸣 ( 5 篇) ，吴愈晓( 5 篇) 。该统计进一步显示出定量研究的机构和作者较集中于专业化科研群体。

3．海外作者比例持续上升。

还有一个值得一提的发现是，来自海外高校和研究机构的作者比例在 31 年里持续上升。海外作者不仅数量在增加，来源国家和地区也越来越多元化。在第一个十年里，全部 333 人次作者中只有7 人次海外作者( 占 2． 10%) ，且全部来自于美国;进入第二个十年，海外作者增至 42 人次 ( 16． 80%) ，来源国家和地区增至七个; 而最后十一年，海外作者人次数再次增加至54 人次 ( 15． 34%) ，来源国家与地区则进一步增至九个。绝大多数海外作者采用与中国学者合作且担任非第一作者的方式在《社会学研究》发表定量研究论文。仅有少量论文为海外作者独立或两位以上海外作者合作完成。自 1997 年香港回归之后，来自中国香港的学者在海外作者中持续占有高比例，总人次数接近半数( 102 人次中的50 人次，占比为 49．02%) 。可见，相对于其他国家与地区而言，中国香港社会学界与中国大陆的交流更多，相互认可度也较高。此外，考虑到很多论文为双作者或多作者，也说明中国香港社会学者与大陆地区的学者合作较多。

4．作者来源地向北京和东部沿海地区集中。

统计所有作者单位的所属地区，可以发现北京一直是作者来源最重要的地区，不论是在哪个年代都排在第一位;但是从31 年的变迁来看，其所占比例却在逐渐下降，分别为 48. 9%， 39. 8%和37. 4%。相对的，以上海为代表的华东地区几省市的作者人次数则在31 年内有了显著增加，来自上海的作者比例由5. 4% 涨至 15. 9%，江苏的作者比例则由 4. 5% 上升至 7. 1%。同时，华南沿海地区作者比例也有一定的上升，以广东省为代表，其作者比例由 4. 8% 上升至9. 1%。而来自华北地区和华中地区的作者比例则有了明显的下降，如来自天津的作者比例由4. 0%降至1. 3%，而来自湖北的作者比例由9. 3%大幅降至1. 8%。其他一些地区，如东北、西北、西南地区各省份的作者比例则一直处于较低水平，甚至有6 个省份在31 年内未有一位作者在《社会学研究》上发表过定量研究论文。这一区域性此消彼长的变化，反映出东南部沿海地区作为全国经济较发达、高等院校科研机构也较为集中的地区，其优秀定量研究作者的产出比例不断上升，社会学科研实力与其他地区的差距逐渐扩大。此外，我们亦不排除优秀的社会学定量研究者在31 年间持续向东南部沿海地区流动这一现象所带来的影响，科研人才的区域性聚集也是造成统计结果变化的一个重要因素。

五、30 年中国社会学定量研究的瓶颈和出路

从31 年的发展历程来看，我们可以清晰地发现，定量研究已从描述和揭示变量之间的关联，发展至探求社会现象间的因果解释。尤其可喜的是，经过中国学者多年的努力，立足中国数据、致力于解释中国社会现象的定量研究，在相当程度上已完全具备了与国际顶尖同行对话的高度。特别是，探索多元融合的定性定量混合研究方法，各种新的分析手段，以及以大数据、定量历史为代表的新领域和新路径不断涌现，［15］这使得中国的定量研究，经历了第一个十年的起步和第二个十年的发展，在最近11 年已经开始进入到与全球社会学研究前沿进行对话的历史新阶段。定量分析领域的杰出中国代表，其国际知名度已不逊色于国际社会学大家。

在充分肯定中国社会学定量研究逐渐走向规范化、科学化的同时，我们也要正视定量研究 31 年的发展历程中的不足。这里值得注意的是，在定量研究发展的早期，对其批评多半来源于对抽样代表性问题、数据可信度问题、模型适用性问题等技术的不成熟和方法的不规范的不满。［17］然而，这些传统问题已经随着数据收集能力的强化和计量模型技术的提高得到了解决。在定量研究技术上逐渐走向成熟之后，我们认为，当今中国的社会学定量研究主要面临着三大研究瓶颈:

1．研究层面微观化，缺乏宏观视野和理论视阈。

理论的缺位，或者说对理论的淡化，是中国当代定量社会学研究遭受批评的重要方面。究其原因，主要有两个方面:

第一，个体层面调查数据限制了宏观视野。

从31 年中国定量研究的发展轨迹来看，传统分析层次通常为问卷调查的个体。然而，大量的社会关系和社会过程，如社会制度、法律、文化等，都是宏观层面的社会属性，唯有具有大时空视野，才能提出这类问题、分析和解答这类问题。受限于传统的调查研究数据、学科模式的谨小慎微( 诸如对“生态谬误”的恐惧) ，定量学者们习惯于对个体样本数据的观测研究，这种研究视野的窄化非但让定量社会学研究成果在社会大众面前显得琐碎而了无趣味，更容易让定量学人不再对宏观社会现象具有理论使命感，甚至走向自我封闭的道路。

第二，针对重大社会问题和现象的学术敏锐度不够。

定量研究必须依赖于高质量的数据生产。而获得高质量的数据，则需要耗费大量的时间、人力和物力。数据作为分析工具的天然滞后，导致了一种学术过程的后撤:在重大社会变迁的把握和重大问题的发现方面，思辨研究的理论家和田野研究的发现者似乎总能走在历史的潮头，走在定量学者的时间前方。恰恰因此，甚至有学者认为，理论和定性研究是定量分析的基础。当失去了研究的历史先机，当获得“发现者”、“首倡者”这类荣誉的概率略低，定量研究者们也就自然容易满足于对既有理论的证实证伪，甚至滑向依托现存数据和问卷，闭门造车做模型、纯为发表而写作等等误区。

视野的危机，其实不是人的危机，不是学力高低的危机。作为定量社会学面临的方法危机，最初源自数据层面的过度微观化和生产滞后性，并逐渐发展成为一种分析时空、理论视野的窄化，以及论证习惯的惰性滞后，最终以学术使命危机呈现而陷定量研究者于危地。

2．纵贯数据缺乏，导致因果推断力不足。

无论是诠释还是预测，定量研究的最终目的都在于因果分析，这就要求基于调查数据的研究者们面对一个永恒的挑战———内生性( Endogeneity) 问题。［18］而基于截面观测数据的定量研究，其单方程经典回归模型系数统计显著与否，本质上只能说明对该变量在统计上是否具有关联，至于孰因孰果，以及这一关系的真正体量，却因偏误重重而无力推断。

在传统的遗漏变量解决方案中，学者们会尽力去利用截面数据中的非传统数据作为遗漏变量的替代( Proxy) 并加以控制。但实际上，任何一个模型的遗漏变量，都不可能通过穷举方式实现。在逻辑的角度，我们无法知道遗漏了哪些未观测到的且与我们感兴趣的自变量相关的因素，从而使得分析结果产生内生性偏误———总有我们想不到的遗漏变量成为内生性问题的来源。此外，双向因果也是困扰截面数据的一大问题。我们很多时候只能判断社会现象之间相关，而谁为因谁为果则很难依靠截面数据说明。因此，在不使用工具变量( Instrumental Variable) 的情况下，仅仅基于截面数据的研究，内生性问题难以厘清，因果关系也很难判断。然而，想要寻找到一个与解释变量高度相关，却与被解释变量无关的工具变量，往往又是一个困扰定量研究者的巨大难题。

与截面数据相比较，纵贯数据特别是面板数据在数据结构和提供的信息方面都更加丰富，有利于实现对因果机制干预的研究。具体而言，面板数据具有多个优点，如可以控制不随时间变化的个体异质性，可以提供更加丰富的变异性信息，增加自由度和提高估计的效率，可以研究动态过程等等。此外，倍差法等新的模型，也需要纵贯数据来实现。

3．高级模型掌握不全面，导致错误结论。

尽管高级模型在我国社会学定量研究中已逐使用，但掌握不全面、使用不当甚至无用误读的现象却时有发生。我们以非线性模型的回归系数为例来做说明。

尽管 Logit 等非线性模型近年来得到大量使用，但不少作者仍然没有意识到，非线性模型的系数诠释和比较不能简单沿袭线性回归模型的方法。在线性回归模型中，误差项往往被假定为服从均值为 0，方差为某一常数的正态分布。所以线性回归的总方差是固定的，只要因变量不变，其相对于均值的总的离差平方和就不变。但是以 Logit 模型为例，其总方差会随着自变量的加入或减少而变化，因此即使添加的变量与其他自变量无关，对系数估计也会产生影响。这一问题往往导致低估变量的效应。［22］换句话说，我们不仅无法像线性回归那样对 Logit 嵌套模型之间的系数直接进行比较，而且也无法直接比较同一 Logit 模型在不同群体中的效应。因为这样直接简单比较所隐含的假设是: 不同的样本或同一样本的子群体之间具有相同的未观测到的异质性，这个假定显然并不符合实际。研究者针对这一问题已提出不少解决策略，如“y* 标准化”、 KHB 分解、异质选择模型、平均偏效应( APE) 和线性概率模型 ( LPM) 等，但国内学者普遍关注较少。

面对这三大研究瓶颈，定量研究者已开始积极反思，并寻找出路，具体可包括:

1．重建理论思维。对于习惯于从数据发掘规律，从结果验证理论的定量学人而言，重读人文经典书籍，重建理论思维，可以带来四个方面的重要拓展: ( 1) 从社会学经典概念中获得理论研究的定量分析对象，基于原有理论，再进一步从社会现象中提炼、发现和提出新理论，然后用数据进行定量验证分析。( 2) 重读中外历史，获取重要的社会科学数据来源，对文化历史现象进行数据分析，并获得新的社会学分析思考的灵感。( 3) 在重读文化经典的过程中进一步增强作品的文采和感染力，改变定量文章的枯燥感。( 4) 对社会科学经典作品的阅读还有助于帮助定量研究者实现人文、理论、科学和数量的有机结合，获得高屋建瓴的视域和眼界。

2．挖掘宏观数据。大数据的出现和发展为定量社会学者研究大历史、大空间的宏观社会过程提供了全新的前景。利用大数据来进行人文社科领域的量化研究，已经逐渐成为社会学等相关学科的前沿和热门领域。对于跨度百年甚至数百年的知名度、文化影响力、阶级意识等抽象概念的宏观分析，往往局限于文字描述和有限的史料记录，而图书和互联网大数据的出现为构建这些概念的具体指标提供了可能，可使研究成果具有大视野、大跨度的特征，具备高度的科学性和说服力。

3．倡导纵贯分析。面对截面数据难以进行因果推断的缺陷，在数据允许的情况下，通过时间序列分析或面板分析来追踪时间变化所带来的差异性影响，在一定程度上可以弥补这一不足。相比截面数据分析，时间序列分析往往是基于单个个体分析其随时间的变化状态，而面板分析的数据综合了截面数据和时间序列数据，是对不同个体随时间变化状态的分析。时间序列分析与面板数据对于解决内生性问题的优势在于，均可做到对同一个体进行追踪以得到个体随时间变化的趋势与规律。如果内生性问题主要来源于个体不随时间变化的不可观测或不可测量因素，或某些不可观测或者不可测量因素随时间变化，我们亦可以基于时间序列的结构特征，通过历年模型的差分方法，将这些时间固定的干扰项排除在模型之外。

4．改革计量课程。目前我国定量社会学的教学，基本仍是统计学原理和基本统计软件操作。然而，对不断推陈出新的高级计量模型的介绍和此类模型在统计软件中如何编程的学习也同样重要。特别是，要改变目前的定量基础训练中重基本统计概念和数理推导，轻甚至忽视具体方法、模型和软件的模式。在打牢基础的同时，还应强化实际运用统计原理、快速学习高级计量方法的能力。与此同时，各学术期刊也应该进一步加强对高级计量模型的规范化使用的要求，避免拿模型套数据，实则对模型内涵、假设认识不清的论文。

上述这三个问题的应对和解决，将成为中国社会学定量研究下一个阶段发展的重点。相较于欧美等发达的西方社会，中国社会尚处于急速上升和改革期，社会现象具有独有的特征，在诸多维度上具有更加多元、复杂和微妙的结构过程，这更需要社会学研究者基于完备的数据、扎实的理论和精妙的统计手段，走出研究困境，逐步形成既保留对中国社会问题的关注，同时又可与世界先进研究水平比肩的中国社会学定量研究。

转自：“量化研究方法”微信公众号

如有侵权，请联系本站删除！

上一篇： 正态分布为什么常见？
下一篇： 非此即彼的Ⅰ类错误和Ⅱ类错误：哪个更要命？

投稿问答最小化 关闭

707篇定量论文中的秘密：社会学定量研究30年

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

707篇定量论文中的秘密：社会学定量研究30年

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭