投稿问答最小化  关闭

万维书刊APP下载

小样本、大结论:小样本案例比较研究再考察 | Social Forces

2023/5/5 16:29:47  阅读:166 发布者:

小样本、大结论:小样本案例比较研究再考察

摘要:

越来越多的研究(特别是在比较和历史研究领域),正在使用米尔(1872)提出的求同法和求异法,根据少量的案例来推断因果关系。本文探讨了此类研究中隐含的假设逻辑。例如,研究必须假设:(1)采用决定性的方法而不是概率性的方法;(2)没有测量错误;(3)只存在一个原因;(4)不存在交互影响。这些假设通常是不合适的,因为它们与大多数社会过程的现实状况相矛盾,但如果我们遵循米尔的基于小样本的因果分析,这些假设则是强制性的。如果没有对上述假设进行严格的论证,没有对可能的扭曲进行防范,研究就不应该试图在小样本的情况下使用这种方法。

作者简介:

Stanley Lieberson,哈佛大学社会学系

文献来源:

Social Forces, 70(2), 307-320.

本文作者Stanley Lieberson

引言

本文评估了一种社会学的方法,这种方法的使用越来越多,特别是在研究历史和比较问题方面。更具体地说,本文考察的是基于少数案例如何得出因果推论。这种方法对社会学来说并不新鲜,它是分析性归纳法当中的一种或是分析归纳法的变体。

这些小样本量的研究(small-N studies)有很多例子,它们运用米尔的方法(Mills methods)来推断因果关系。例如,Moore1966)在分析各种阶级和农民的作用导致七个不同国家的三种不同结果时就使用了该方法。Skocpol1979)对少数国家的社会革命进行了有影响力的研究,也使用了这样的方法,并将其应用归功于托克维尔和布洛赫。Katznelson1985)通过消除两个国家的共同特征来解释“英国和美国工人阶级形成模式之间的差异之谜”。同样,Stepan1985)利用阿根廷、巴西、智利和乌拉圭之间的异同来推断“国家的权力和公民社会的权力”之间的关系。OrloffSkocpol1984)比较了美国和英国在世纪之交的福利发展,排除了福利国家发展的主要传统理论,因为两个国家的独立变量被认为是一样的。

我们可以很容易地理解根据少量案例进行因果推断的原因。如果有深度和细节都适当的大量案例的数据,显然研究者就不会用少量案例来研究了。本文主要讨论三个问题:(1)少量案例研究的基础假设是什么?(2)这些假设是否合理?(3)在少案例研究是合适的研究方法的情况下,我们能做些什么来改进这些研究?

概率性和决定性的观点

让我们首先区分一下决定性的因果命题和概率性的因果命题。前者假设一个给定的因素,当它存在时将导致一个特定的结果。后者在其因果主张中更为温和,假设一个给定的因素,当它存在时将增加一个特定结果的可能性。当我们说,“如果X,那么Y”,我们正在做一个决定性的声明。当我们说,“X的存在增加了Y的可能性或频率”,我们在做一个概率性的声明。很明显,如果可以选择的话,决定性的声明更有吸引力。它们比概率性的声明更干净、更简单、更容易被反驳。一个负面的案例(在X存在的情况下没有Y)会很快消除一个决定性的声明。我们往往不知道或无法测量我们认为会影响Y的所有因素。因此,我们不得不放弃对X影响Y的决定性测量,即使我们准备对其影响做决定性的声明。

简而言之,在大多数社会研究的情况下,决定性理论的要求不太可能得到满足。当这些条件没有得到满足时,决定性理论和概率性理论的经验后果是相似的,即两者都必须接受偏差:前者是因为测量和控制方面的错误,后者既是因为这些原因,也是因为理论本身包含了某种程度的不确定性(由于所有变量的测量或知识方面的固有问题,或者由于现象中的某些固有不确定性)。

但是,小样本研究实际上是以决定性的方式运作的,这类研究在其理论和经验应用中都避免了概率性思维。正如小样本方法的一位杰出支持者所说:“与统计分析的概率技术(当有大量的案例和连续量化的变量需要分析时使用的技术)相比,比较历史分析通过对少量案例的各个方面进行逻辑上的并置(logical juxtapositions)来展开。他们试图确定不变的因果配置,这些配置必然(而不是可能)结合起来解释感兴趣的结果”(Skocpol 1984378)。

小样本比较、历史和组织分析中使用的研究步骤在概念上都是决定性的。事实上,在概率论的假设下,小样本研究无法有效运作,因为它们需要更大的样本才能得到有意义的结果。当我们分析基于米尔方法的样本研究中所使用的推理时,这种无效性就变得很清楚了。

米尔的方法

正如Skocpol1986)所观察到的,关键问题是Mill的求同法(method of agreement)和求异法(method of difference)对小样本数据的适用性。Nichols1986)同意这一点,但他表明了这种逻辑的应用是如何做出各种假设的,这些假设对于社会过程来说是不现实的,并导致严重的扭曲。本文将在这一重要批判的基础上进行修正。

让我们从求异法开始,它处理的是因变量(结果)在所有案例中都不一样的情况。在这里,研究者检查所有可能影响这一结果的自变量,寻找一种模式,即只有一个自变量与因变量完全相关,而其他自变量要么是恒定的(无论因变量的变化如何),要么与因变量不完全相关。这方面的例子可能是Xi在所有情况下都是常数,或者在不同情况下以不同于因变量的方式变化。这种方法甚至适用于两个案例,只要只有一个自变量不同,其他的自变量在不同的案例中是不变的。表1说明了这种类型的分析。为了简单起见,我们假设所有的自变量和说明都是二分法,“是”和“不是”表示所考虑属性的存在或不存在。

将求异法应用于表1中的假设数据,我们会看到,汽车事故是由X2引起的,因为在一个案例中,有一辆车进入了十字路口,而在另一个案例中,没有车进入。我们也会得出结论,事故不是由酒后驾驶或闯红灯造成的,因为两个司机的变量(分别是X1X4)都是一样的,但只有一个司机发生了事故。这样的结论只有通过一个非常苛刻的假设才能得出,而这个假设很少被研究。该方法的逻辑假设没有交互作用的影响(即每个自变量对Y的影响不受其他自变量水平的影响)。由于X1X4是常数,根据这一逻辑,醉酒和闯红灯都与事故无关。该程序并没有从经验上或逻辑上消除交互效应。相反,它武断地假设它们没有作用,因此常数不能影响因变量。除非先验地自动排除了交互作用,否则这意味着表1中的结果(以及该方法的所有其他小样本的应用)未能提供任何关于变量X1X3X4对所考虑现象的影响的确定。

在表2中,我们有一个新的情况,即两个司机都经历了事故。和以前一样,两位司机都喝醉了,两辆车都闯红灯,同样只有一次是另一辆车适当地进入了十字路口。然而这一次,第二个人是以高速行驶,而第一个司机却没有。从直觉上讲,高速驾驶可能会影响事故发生的机会,由汽车未能转弯或导致打滑,这不是没有道理的。无论如何,由于两个司机都发生了事故,米尔的求同法所产生的逻辑就得到了应用。然而,请注意在这种逻辑下会发生什么。之前的原因现在被排除了,因为它在两个都发生事故的司机之间是不同的。以前,X1X4不可能造成事故,但现在它们是唯二可能的原因。由于在这种情况下,只有一个司机超速,而两个司机都发生了事故,因此,这个因素的加入不可能造成事故——这也是一个非同寻常的结论。什么地方出了问题?这个例子表明,当不止一个因果变量是决定性因素,而且案件数量较少时,米尔的方法是如何不能起作用的。两个表格之间的比较表明,关于变量是否会导致事故的结论是多么不稳定。在这两个案例中,关于第一个司机的每一个事实都是相同的,但是第二个司机超速,因此发生了事故的事实完全改变了我们对导致第一个司机发生事故的原因的理解。这种数据分析的另一个缺点是,如果发现多决定性的模型是合适的,那么结论就会非常不稳定。此外,对于一个小样本研究,虽然有可能获得数据,使人拒绝单变量决定性模型的假设,但即使观察到的数据符合这样的模型,数据也不可能合理地保证单变量决定性模型是正确的。

正如Nichols1986年)所指出的,Mill曾打算将这些方法作为“只有在我们确信已经能够正确和详尽地分析所有可能的因果因素时才是确定的”。Nichols继而指出,当因果关系复杂或有一个以上的原因在起作用时,Mill会拒绝这些方法。除了这些重要的考虑之外,上述分析还显示了该程序对相关变量的排除是多么的脆弱。在案例2中,如果我们排除了X4,醉酒就会成为因果因素。大样本研究也面临着遗漏变量会从根本上改变观察到的关系的潜在危险,但这里对虚假结论的敏感性要大得多。

理论关切

我们看到米尔方法的小样本应用不能随便用于所有的宏观社会数据集。这些方法需要非常强烈的假设:决定性的原因、只存在一个原因、不存在相互作用的影响、相信所有可能的原因都被测量了、不存在测量误差,以及假设如果获得所有相关案例的数据,会出现相同的干净模式。

研究者必须认识到,这些假设在这个程序中是强制性的。那么问题就来了:在什么条件下做出这些假设是合理的(“合理”是指它们有很大的可能性是正确的)?经验数据本身不能用来检验这些假设是否正确。例如,在典型的小样本研究中收集的经验数据不能表明是否有单变量的决定性原因在运作,或者是否没有交互效应。大规模组织的理论,不管是不是“质性”的,都必须在数据分析开始之前直接解决这些问题。此外,这些理论还必须发展出思考这些问题的方法,以便研究者能够决定它们是否合理。当然,Ragin1987)提出的布尔方法是朝着正确方向迈出的一步,尽管它确实需要一个相对较大的样本,而不是这里所考虑的小样本研究类型。

质性数据的质量

无论研究是否是“质性”的,在小样本的研究中,我们对变量的设计和测量都要特别小心。当案例数量较少时,错误或不精确的影响甚至更大。这些研究中使用的决定性模型需要无误差的测量。研究案例的选择本身就很关键,需要对选择案例的适当程序进行大量思考。对于小样本研究方法的实践者来说,这些都是不言而喻的事实,而对少数案例的严格审查应该意味着对描述的异常谨慎。

为了避免一些方法上的陷阱,异常严格的做法是必要的。如果使用合理严格的标准选择少量的案例,那么每个案例的结果是否相同就有很大的区别。如果它们是相同的,那么就采用求同法,这样,只有当一个变量在所有案例中都是恒定的时候,才会出现解决方案;如果不同,那么当所有案例中除了一个变量外,所有变量都是恒定的时候,才会出现唯一的解决方案。如果一个自变量由名义上的类别组成,那么划分它们应该没有什么困难,因为受过训练的观察者会对每个测量的分类达成一致。研究人员使用与任何大规模研究相同的检查方法(如内容分析)。但是,如果自变量是定序的,那么有序变量的二分法或其他划分方式(多分法)就有一定的随意性。

由于小的样本量和米尔的方法的要求,涵盖所有可能的因果变量是至关重要的。然而,如果认真执行的话,这往往会导致不确定的结果,因为一致法很可能会出现不止一个对所有情况都不变的变量,同样,差异法也会出现不止一个与因变量的差异有关的自变量。例如,假设我们发现一个醉酒的司机没有经历汽车事故,而清醒的司机却经历了。在这种情况下,使用历史社会学中实行的小样本方法,调查者有可能得出结论,清醒导致汽车事故,或者至少是在观察到的情况下是如此。在最好的情况下,也只有当正确的因果因素被包括在内时,研究才会得出结论,清醒或其他因素导致汽车事故。在最坏的情况下,如果正确的因果因素被排除在外,清醒将是原因。因此,这里有一个两难的问题:只有在独立变量数量不多的情况下,才会出现一个干净的结果,但这一步很可能会增加结论错误的可能性。

结论

小规模宏观比较研究中的一些假设不仅要求很高,而且这些假设通常既没有明确提出,也没有得到认真审查。一种可能性是,这些假设的出现是因为它们是处理这些数据集的唯一方法,而不是因为调查者通常认为它们是正确的。在这种情况下,当试图进行基于大样本的研究时,同样的假设将崩溃。另一种可能性是,这种假设适用于某些主题,比如涉及主要机构或国家的主题。如果是这样的话,那么就缺少了一个非常重要的步骤,因为这些假设很少能用基于大量案例的经验数据来证明。然而,目前看来,米尔的研究程序不能应用于小样本研究。我们有充分的理由对这种程序所产生的因果分析的基本假设提出质疑。

就目前的情况来看,似乎是方法论的需要产生了理论,而非相反。直截了当地说,将米尔的方法应用于小样本的情况,不允许有概率理论、交互效应、测量误差,甚至不允许有一个以上的原因存在。例如,在上面的应用中,该方法不能考虑不止一个因素导致汽车事故或两个变量之间存在交互作用的可能性。事实上,如果两个司机都喝醉了,但其中一个没有发生事故,该研究程序会得出结论,醉酒状态不可能是导致确实发生事故的原因。

转载来源:Sociology理论志

转自:“思得学术”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com