因果推断五十年:成就、挑战与应对

锐菱小婷婷 阅读:127 2024-12-30 08:18:58 评论:0

摘要:鲁宾因果模型问世五十年以来,学术界对因果关系的理论认识和分析方法有了长足发展,应用因果推断方法开展的实证研究也不断增多。但鲁宾因果模型在取得巨大成就的同时,也面临很多挑战和局限。这既包括将该模型应用于观察研究时无法保证随机分配假定的局限,也包括为了满足近似随机分配的合理性,而无视研究问题的实质重要性的局限。除此之外,鲁宾因果模型在分析结果的原因和识别因果机制方面也存在不足。为了应对这些挑战,研究者既要改进定量研究设计,也要有意识地借鉴和吸纳定性分析工具,只有将定性和定量两种方法有机结合起来,才能对因果关系进行全面和透彻的分析,进而有助于对因果问题的全面认识,促进定量与定性两个研究范式的融通和促进。


作者:许琪,南京大学社会学院教授。


本文载于《学术月刊》2024年第11期。




目次

一、引言

二、鲁宾因果模型

三、来自观察研究的挑战

四、对鲁宾因果模型的挑战

五、应对:定量与定性

六、走向方法论多元主义



一、引言




1974年,美国统计学家鲁宾(Donald Rubin)在《教育心理学期刊》(Journal of Educational Psychology)上发表了一篇名为《在随机和非随机研究中估计干预的因果效应》的论文,标志着近代以潜在结果模型(potential outcome model)为核心分析框架的因果革命的兴起。半个世纪以来,以鲁宾因果模型(Rubin causal model)为基础,学术界对因果关系的理论认识和分析方法有了长足发展。在经济学、管理学、政治学、社会学、教育学、公共卫生等社会科学领域,应用因果推断方法开展的实证研究也不断增多。在这一背景下,近年来国内翻译并出版了大量与因果推断有关的教材。很多学者也在不断引介各种前沿的因果推断方法,并自觉使用这些方法开展实证研究。这为推动国内定量研究的规范化、科学化以及与国际接轨起到了重要作用。


然而,因果推断方法的爆发式发展及其在应用领域取得的巨大成就也在一定程度上掩盖了该方法的不足。随之而来出现了两方面的问题:一方面,很多学者对因果推断方法产生了不切实际的幻想,或者说误以为只要使用了高深的统计模型,就足以获得平均因果效应的无偏估计。另一方面,考虑到对鲁宾因果模型的批评有很多是来自定性学者,对这种批评的忽视也在一定程度上加深了定量研究与定性研究之间的隔阂,不利于这两种研究传统的相互融通和促进。鉴于以上两点,笔者认为,在鲁宾因果模型问世五十年后的今天,有必要以一种更加审慎的态度看待它业已取得的成就和依然存在的缺陷,同时为应对这些缺陷制定可能的行动方案。因此,本文将从成就、挑战和应对三个方面回顾因果推断方法在过去半个世纪的发展。与其他回顾性文章相比,本文的贡献主要表现在:


首先,本文在介绍鲁宾因果模型的核心思想及其学术贡献的同时,也用较大篇幅论述了应用该模型开展社会科学研究的挑战和局限。例如,将该模型应用于非实验情景时无法保证随机分配假定的局限,以及鲁宾因果模型所固有的在分析结果的原因和识别因果机制等方面的局限。因此,与以往研究大多强调该模型的优势不同,本文的介绍更加全面,评价也更加公允。


其次,本文从定量与定性两个角度提出了改进因果推断方法的行动方案,特别是本文用较大篇幅介绍了定性工具在改进研究设计、分析结果的原因和识别因果机制方面的重要作用。因此,与以往研究大多局限于定量方法不同,本文持一种方法论多元主义的立场。笔者认为,定量工具和定性工具各有优势,如能将两种传统结合,势必能为因果分析开辟更加广阔的空间。




二、鲁宾因果模型




鲁宾因果模型是由统计学家鲁宾提出的一种基于潜在结果进行反事实因果推理的分析方法。该方法最早可追溯至统计学家奈曼(Jerzy Neyman),因此,也被称作奈曼-鲁宾模型(Neyman-Rubin model)。但考虑到奈曼在因果推断方面的早期思想对后世并未产生太大影响,鲁宾几乎是凭一己之力重新提出了潜在结果的概念及分析方法,因此学术界通常也将这一方法称作鲁宾因果模型。




(一)模型设定




鲁宾因果模型最重要的两个概念是干预(treatment)和潜在结果(potential outcome)。干预通俗来讲就是研究的自变量,或原因变量。没有因,自然就没有果,所以,研究任何一个因果关系都必须从确定原因变量开始。鲁宾因果模型在很大程度上受到实验法的影响,因此,沿用实验法的术语,鲁宾将研究的自变量称作干预。干预变量可以取不同的值,或者说对应于不同的干预状态。在每个干预状态下,因变量会呈现不同的结果,即潜在结果。


一旦定义好干预变量,确定了每种干预状态下的潜在结果,就可以计算干预效应(treatment effect)。根据分析的不同层次,干预效应分为两种:一是个体层面的干预效应,二是总体层面的平均干预效应。以二值干预变量D为例,对任意个体i来说,记干预状态图片下的潜在结果为图片,控制状态下图片的潜在结果为图片,我们可以通过二者之差定义个体层面的干预效应:


图片(公式1)


从公式1不难发现,要计算个体层面的干预效应,研究者必须知道所有干预状态下的潜在结果,而这在现实情况下是不可能实现的。以大学对收入的影响为例,一个人要么上大学,要么不上大学,所以图片图片只能观察到一个。对上大学的人来说,我们能观察到他上大学后的收入图片,但无法观察到他不上大学这种反事实状态下的收入图片。对没有考上大学的人来说,我们能观察到他不上大学时的收入图片,但无法观察到他上大学这种反事实状态下的收入图片。因为研究者永远无法同时观察到图片图片,所以永远无法通过公式1直接计算大学对每个人收入的影响,这被霍兰德(Paul Holland)称作因果推断的根本难题。由于这个难题,研究者无法直接计算个体层面的干预效应,而只能在一定的假设条件下对其大小进行估计。这种估计的关键在于合理预测反事实状态下缺失的潜在结果,正是在这个意义上,鲁宾认为,因果推断在本质上是一个缺失数据的填补问题。


除了估计个体层面的干预效应,研究者通常也会计算干预变量在总体层面对因变量的平均因果影响,这就是平均干预效应。在具体研究中,常见的有三种平均干预效应,它们分别对应三个不同的群体。


一是总体中的平均干预效应(average treatment effect in the population,通常记作ATE)。这个指标针对所有研究对象求平均,其计算公式为:


图片(公式2)




二是干预组的平均干预效应(average treatment effect in the treated,通常记作ATT)。这个指标仅针对干预组个案求平均,其计算公式为:


图片(公式3)



三是控制组的平均干预效应(average treatment effect in the untreated,通常记作ATU)。这个指标仅针对控制组个案求平均,其计算公式为:


图片(公式4)


从上述公式可知,计算平均干预效应最直接的方法是,先估计个体层面的干预效应图片,然后再对不同的群体求平均。但实际上,研究者也可以跳过图片来计算ATE、ATT和ATU。以ATT为例,对公式3进行适当变换,可以得到:


图片(公式5)


由此可知,ATT等于图片图片这两个期望值之差。在这两个量中,图片可直接从数据得到,因为它就是干预组中因变量的平均值,即图片。但图片却无法直接从数据得到,因为根据定义,它等于干预组个案被分配到控制组时因变量的均值。显然,这是一个反事实情况下的结果,因此,我们在求解ATT的时候再次遇到了霍兰德所说的因果推断的根本难题。针对这个难题,常见的解决办法是用图片作为图片的估计值。换句话说,用控制组个案的因变量均值去估计干预组个案在被分配到控制组这个反事实情况下因变量的均值。显然,这种估计的合理性取决于干预组与控制组在图片上是否完全可比,或者说二者在图片上的差异是否完全可以忽略。因此,鲁宾将这个假定称作可忽略性假定(ignorability assumption)。


综上,如果用公式来表示,要估计ATT,我们需要假定:


图片(公式6)


按照同样的方法,可以推导出估计ATU所需的可忽略性假定:


图片(公式7)


以及,估计ATE所需的可忽略性假定:


图片(公式8)


以上就是可忽略性假定的核心内容。鲁宾认为,该假定只有在干预变量随机分配(random assignment)的情况下才能得到完全满足。因为在这种情况下,干预组和控制组在任何特征上的差异都可以忽略,这其中当然包括图片图片。在社会科学研究中,费舍尔(Ronald Fisher)提出的随机对照实验(randomized controlled trial)可以满足干预变量随机分配的要求,因此,实验法通常被视作因果推断的黄金标准(gold standard)。但是因为研究伦理等方面的限制,很多社会科学家感兴趣的因果推断问题无法通过实验法进行研究,实际研究中使用更多的是在非实验条件下采集的观察数据(observational data)。使用观察数据进行因果推断面临很多挑战,其中最大的挑战是不满足鲁宾所说的可忽略性假定。对此,现有研究基于鲁宾因果模型提出了多种应对方案。




(二)从实验研究到观察研究




最常见的应对方案是对可观测的干扰因素实施统计控制。鲁宾认为,在观察研究中,可忽略性假定不满足意味着图片的分配过程不随机,这时就需要对图片的分配过程建模。如果图片的取值受一组可观测变量X的影响,且排除X的影响后,图片图片图片条件独立,那么可以得到一个相对较弱的可忽略性假定,即:


图片(公式9)


这个假定意味着,通过恰当的统计控制,可以得到平均干预效应的无偏估计值。在实践中,常见的统计控制方法有两类:一是回归(regression),即将X作为控制变量与干预变量D一起纳入回归方程,估计D对Y的净效应(net effect);二是匹配(matching),即通过一定的方式将在X上取值较为接近的干预组个案和控制组个案匹配在一起,然后再对匹配样本进行分析。相比回归,鲁宾更加推荐的是匹配,特别是基于倾向值(propensity score)的匹配方法。


倾向值是指个体进入干预组的概率。罗森鲍姆(Paul Rosenbaum)和鲁宾的研究指出,可以先基于X预测倾向值,然后将倾向值得分相同或相近的干预组个案与控制组个案匹配起来进行分析,这样可以很好地消除因X导致的内生性问题。除倾向值匹配之外,基于倾向值的分析方法还包括倾向值细分(propensity score sub-classification)和倾向值加权(propensity score weighting)。还有学者将倾向值匹配与回归结合,提出了估计平均干预效应的双重稳健方法。尽管这些方法在技术细节上存在很多差异,但它们有一个共同的前提条件,即穷尽所有干扰因素X,或者说在控制X之后满足公式9所示的可忽略性假定。如果研究存在未观测的干扰因素使得公式9不成立,那么就必须通过其他途径识别D对Y的平均因果影响。接下来,本文将介绍其中较为常见的三种。


第一种常见的分析方法是自然实验(natural experiment)。顾名思义,自然实验发生在非实验室的自然情境下,但与标准的随机对照实验相同,自然实验中的干预变量也近似地满足随机分配,因此,使用该方法进行因果推断有较强的说服力。关于自然实验的一个经典案例是19世纪中叶英国流行病学专家斯诺(John Snow)对伦敦地区霍乱起因的研究。他发现,伦敦地区的饮用水主要由两家供水公司提供。起初,这两家公司都在泰晤士河的下游取水,但是在1849年,A公司将水源地转移到了泰晤士河的上游,而B公司则依然在下游取水。通过大量的调查走访,斯诺发现,这两家公司的服务区在各种特征上都没有明显差异,因此,A公司在1849年改变水源地的做法类似在伦敦居民中进行了一次随机化实验。但改变水源地之后,A公司服务区的霍乱死亡率下降到了B公司的1/8,据此,斯诺推断霍乱是因为喝了泰晤士河中被污染的水导致的。


在理想情况下,自然实验中的干预变量应当与随机对照实验一样是随机分配的,但这种完美的自然实验很少见。在大多数情况下,自然实验中的干预组和控制组之间也会或多或少存在差异。为了尽可能消除这些差异,可以使用双重差分法(difference-in-difference,DID)。双重差分指的是用两组人在实验后因变量上的差异减去实验前两组人在因变量上的差异。使用这种方法需要满足平行趋势假定(parallel trends assumption),即假定两组人在不发生实验干预的情况下随时间的变动趋势相同。这个假定虽然比随机分配假定弱,但在现实条件下也不一定能得到满足。对此,一些学者对经典的双重差分法进行了多方面的拓展,如提出三重差分法(triple differences)、倾向值匹配双重差分法等。由于篇幅限制,本文不对这些方法进行介绍,感兴趣的读者可参考相关论文。


第二种消除未观测干扰因素的因果推断方法是寻找工具变量(instrumental variable)。一般而言,好的工具变量需同时满足两个条件:一是对自变量有显著影响;二是对因变量无直接影响。若能找到这样一个工具变量,就可以通过它提取出干预变量中不受模型内生性(endogeneity)影响的随机部分,进而估计平均因果效应。关于工具变量的一个经典案例是安格里斯特(Joshua Angrist)和克鲁格尔(Alan Krueger)以出生季度作为工具变量对教育回报率的研究。美国的义务教育法规定,学生必须年满6周岁才能入学,且未满16周岁不可以退学。这导致出生季度较早的人入学的实际年龄偏大,且更可能在高中时辍学。因此在美国,出生季度对教育年限有显著影响,但婴儿的出生季度可以被认为是随机决定的,不会直接影响收入。因此,出生季度同时满足作为工具变量的两个条件。他们的研究发现,以出生季度作为工具变量估计得到的美国成年男性的教育回报率为7.4%,这与通过线性回归得到的结果大致相等。


经典的工具变量法需假定因果效应具有同质性,近年来,很多研究开始将该方法拓展到异质性干预效应的情形。在此情形下,研究者只能分析受到工具变量外生冲击而改变自变量取值的研究对象,这些对象被称作遵从者(compliers)。例如,在上文的例子中,受出生季度影响导致教育年限发生变化的研究对象就是遵从者。由于遵从者只是研究总体的一部分,所以通过工具变量得到的效应被称作局部平均干预效应(local average treatment effect)。局部平均干预效应的提出深化了人们对工具变量法的理论认识,同时也使该方法的应用变得更加复杂,受篇幅限制,本文不对之做展开介绍,感兴趣的读者可参考相关论文。


最后,第三种常见的针对内生性问题的因果推断方法是断点回归(regression discontinuity)。该方法的设计思路是,寻找干预变量的取值随某个连续变量取值变化时的不连续点,这个点被称作断点(cutoff point)。在断点附近,个案的特征比较接近,唯一不同的地方在于,断点处个案进入干预组的概率发生跳跃,因而断点本身成为一个天然的干预,不同个案在因变量上的差异可以完全被视作由断点造成的。关于断点回归的一个经典案例是安格里斯特和拉维(Victor Lavy)对班级规模和学习成绩之间因果关系的研究。他们在研究时利用了以色列对分班制度的一项特殊规定。根据这项规定,班级规模不得超过40人。因此,如果一个学校招收了40名学生,那么可以将这40名学生安排在一个班,但如果招收了41名学生,就必须分成两个班。安格里斯特和拉维认为,这项特殊规定使得以色列的班级规模在学校招生人数等于40的整数倍时(如40、80等)出现断点。通过对断点左右两侧局部范围内的样本进行系统的比较分析,他们发现,小班教学有助于提升学习成绩,这为推动相关教学改革提供了强有力的证据。


近年来,学术界关于断点回归的理论研究和应用研究都呈快速发展之势。根据坎宁安(Scott Cunningham)的统计,2019年发表的与断点回归有关的学术论文超过了5600篇,而在2000年以前,这个数字从未超过100。在20世纪初,断点回归的应用研究仍局限于经济学等少数学科,而时至今日,断点回归已发展为政治学、社会学、人口学、公共卫生等很多社会科学领域的学者进行政策评估和因果推断的一种常规工具。由此可见,断点回归已然成为因果推断领域的后起之秀,在推动相关实证研究的发展过程中起到了重要作用。




三、来自观察研究的挑战




综上所述,自鲁宾因果模型问世以来,学术界关于因果推断的理论认识有了长足发展,而理论的发展又推动了方法的发展,并最终对社会科学领域的实证研究产生了深远影响。但是,鲁宾因果模型最初是针对实验研究设计的,虽然鲁宾认为,这一因果分析框架也同样适用于观察研究,后续学者也提出了多种专门针对观察数据的因果推断方法,但这些方法的假定条件在实际研究中不一定都能得到满足,因此,基于观察数据进行因果推断始终面临很多挑战。




(一)近似随机分配的合理性




使用观察数据推断因果的最大挑战是干预变量不随机,因此,无论研究者使用的是回归、倾向值匹配等统计控制方法,还是自然实验、工具变量、断点回归等精巧的研究设计,其最终目标都是尽可能使干预变量满足随机分配的要求,进而满足鲁宾因果模型所强调的可忽略性假定。坎贝尔(Donald Campbell)和斯坦利(Julian Stanley)认为,所有以因果推断为目标的观察研究都应当以随机对照实验为设计蓝本,因此可以被称作准实验设计(quasi-experiment design)。准实验这个概念在一定程度上表明,设计良好的观察研究可以像实验研究一样进行可靠的因果推断;但另一方面,或许是因为名字中包含“实验”二字,它也使部分研究者忽视了在观察研究中实现近似随机分配的难度,或者说,忽视了观察研究和实验研究之间存在的一道难以逾越的鸿沟。


具体来说,现有基于观察数据进行因果推断的一种常见分析策略是通过统计控制方法排除混杂变量(confounder)的干扰。使用该策略有三个前提条件:首先,研究者必须明确哪些变量是混杂变量;其次,所有混杂变量都必须有很好的测量;第三,所有被观测到的混杂变量都通过恰当的方式纳入到了模型中。但这三个条件很难同时得到满足。首先,就第一个条件来说,珀尔(Judea Pearl)认为,研究者应当基于完备的理论绘制因果图(causal graph),然后根据后门调整法则(backdoor adjustment criteria)确定一份混杂变量的清单。但这一设想过于理想化,社会科学研究几乎不存在完备的理论,因此很难获得混杂变量的完整清单,这导致大多数研究都会存在遗漏变量偏差(omitted-variable bias)。为了尽可能减少这一偏差,一些研究认为,应当控制尽可能多的变量,但这一策略存在很大的风险。例如,珀尔指出,控制中介变量(mediator)会排除自变量对因变量的部分因果影响,而控制对撞变量(collider)会产生不必要的相关。因此,那种认为控制变量越多越好的观点是错误的,研究者需要首先明确控制变量与自变量以及因变量的关系,然后才能纳入模型。其次,就第二个条件来说,理论上非常重要的控制变量在数据中无法得到有效测量的情况也很常见。举例来说,很多研究指出,在研究教育对收入的因果影响时,应当控制能力,因为能力既会影响教育,也会直接影响收入,是一个典型的混杂变量。但是,因为能力是一个非常抽象的概念,难以直接测量,很多关于教育回报率的研究没有控制能力,这就会导致估计到的教育回报存在偏差。最后,就第三个条件来说,即便数据中包含所有混杂变量的完美测量,如何对它们进行有效的统计控制也是一个难题。现有研究大多通过线性方式进行统计控制,但社会科学中的变量关系非常复杂,线性控制难以照顾到这种复杂性。如果真实的变量关系不是线性的,那么通过线性控制就会产生模型设定偏差(model specification bias)。虽然近年来学者们提出了很多非参数(non-parametric)方法,以降低模型误设偏差的影响,但这些方法还是无法解决遗漏变量和测量误差这两个更加棘手的问题。


综上所述,通过统计控制方法进行因果推断面临很多挑战。因此,近年来越来越多的研究开始通过自然实验、工具变量、断点回归等更为精巧的研究设计来推断因果。但这些方法的有效性同样面临挑战。以工具变量法为例,前文曾经指出,一个好的工具变量需同时满足两个条件:一是对自变量有显著影响;二是对因变量无直接影响。其中第一个条件比较容易满足,第二个条件则非常苛刻。我们曾在上文对安格里斯特和克鲁格尔以出生季度作为工具变量的研究做过简要介绍,但即便是这样一个看似非常合理的工具变量也遭到了很多批评。例如,有学者指出,出生季度虽然对教育年限有影响,但其影响很小,因此是一个弱工具变量(weak instrumental variable)。还有学者指出,该工具变量有潜在的内生性问题,因为家长可能会根据子女的智力发育情况做出按学龄上学还是提前上学的决定,因此,出生季度的影响也会受到人为选择的干扰。最后,如果教育对收入的影响因人而异,那么以出生季度作为工具变量得到的只是一个局部平均干预效应,考虑到该工具变量的遵从者规模较小,其结论能否推论到一般人群也存在争议。总之,很多运用工具变量的研究看似巧妙,但如果仔细推敲,或多或少都存在问题。因此,近年来学界对工具变量的质疑越来越多。实际上,类似的质疑也存在于使用自然实验、断点回归等其他方法的研究中。笔者认为,导致这种质疑的根本原因在于,所有观察研究都包含无法通过数据检验的前提假定,因此,近似随机分配的合理性就像是悬挂在研究者头顶的“达摩克利斯之剑”。虽然一些研究对干预变量的近似随机性进行了较为充分的理论论证,但也有不少研究缺乏这方面的论证,因此无法得到可靠的研究结论。




(二)研究问题的实质相关性




综上所述,通过观察数据推断因果的有效性取决于干预变量近似随机分配的合理性。对某些研究问题来说,这种合理性能够得到比较好的满足,而对另一些研究问题来说,这种合理性则很难得到满足。因此,如果我们仅以因果推断的有效性作为评价一项研究有无价值的标准,那么很可能出现的结果是,学者们对那些容易得出因果结论的问题趋之若鹜,而那些难以得出可靠因果结论的问题则无人问津。但是,社会科学中有很多重要问题是难以得出因果结论的。


西赖特(Jason Seawright)曾以政治体制与经济增长之间的因果关系为例进行说明。显然,这是一个很难得出明确因果结论的问题,但它对政治科学研究却非常重要。西赖特发现,早期关于该问题的研究大多通过统计控制的方法估计政治体制对经济增长的影响,但由于不同学者使用的控制变量不同,研究结论之间的差异很大。例如,一些研究发现,西方民主政体对经济增长有促进作用,而有些研究则发现有抑制作用,还有研究发现二者之间的关系在统计上不显著。由于研究者难以就控制变量的清单达成共识,近年来很多研究开始使用工具变量、断点回归等前沿因果推断方法估计政治体制对经济增长的影响,但这些研究同样收效甚微。以工具变量为例,使用该方法需要找到一些近似随机发生的事件,由此导致部分国家采用西方民主政体,而另一些国家采用威权政体。但这一情形难以想象,因为在现实中,没有一个国家的政治体制是通过类似抽签的方式决定的。由于现有的因果推断方法在研究政治体制对经济增长的影响时难以发挥作用,近年来很多学者转向了其他比较容易得出因果结论的问题,对该问题的探索则始终处于停滞状态。


西赖特例举的政治体制对经济增长的研究并非个案,事实上,很多学者也同样表达了对近年来研究者的旨趣越来越强调因果推断,而不关心研究问题本身是否重要的担忧。邓宁(Thad Dunning)认为,对因果推断的过分强调导致了两方面的后果。一方面,很多研究者过于迷信复杂的统计分析方法,认为只要使用了高深的统计方法,就足以得出因果结论。另一方面,很多研究者对研究问题本身的重要性漠不关心,认为只有因果推断才是唯一重要的目标。对此,他指出,应当从近似随机分配的合理性、统计分析方法的透明性和研究问题的实质相关性三个角度综合评估一项研究的价值。如果以此为标准,那么近年来诞生的很多运用复杂因果推断方法开展的实证研究只是在近似随机分配的合理性这一个指标上达到了比较高的水准,在其他两个指标上则有明显缺憾。相比之下,早期使用相对简单的统计方法对一些在理论层面或现实层面有重要意义的问题进行的探索性研究虽然不符合因果推断的严格要求,但它们在另外两个评价指标上却有明显的优势。总而言之,我们不能仅从近似随机分配的合理性这一个标准来评价一项研究的价值。高深的因果推断方法只是研究的工具,而非研究的目的,只有将因果推断方法应用于重要的研究问题,才能实现其真正的意义与价值。




四、对鲁宾因果模型的挑战




除了上述来自观察研究的挑战,近年来,一些学者也对鲁宾因果模型本身提出了批评,下文将就其中两个主要批评进行简要论述。




(一)原因的结果与结果的原因




一般而言,人们对因果问题有两种研究方式:一是从具体的原因开始,追问其结果;二是从一个已发生的结果开始,回溯导致该结果的原因。前一种研究方式常被称作原因的结果(effects of causes),而后一种研究方式则被称作结果的原因(causes of effects)。从上文的介绍不难发现,鲁宾因果模型总是从定义干预变量开始,以求解干预变量对结果的因果影响结束,因此,它主要针对的是第一类因果问题,而非第二类问题。举例来说,我们可以使用鲁宾因果模型分析教育对收入的影响,但很难通过该模型探究一个人致富的原因。因此,难以分析结果的原因是鲁宾因果模型在实际研究中的一大软肋。


摩根(Stephen Morgan)和温什普(Christopher Winship)认为,研究者可以通过逐一求解每个原因的结果的方式研究结果的原因。举例来说,假设某理论认为,A、B、C、D、E五个自变量都对结果变量有影响,那么研究者可以使用鲁宾因果模型逐一求解这五个变量的平均因果影响,然后将所有求解结果汇总起来,就能得到一个关于结果的原因的满意回答。这一设想看似可行,但实践起来却困难重重。首先,社会科学研究很少有完备的理论能穷尽所有对结果有影响的原因变量,因此,当某理论提出有五个原因变量的时候,研究者通常会怀疑是否存在第六个甚至更多未知的原因变量。其次,即便我们能穷尽所有原因变量,并非常幸运地逐一求解出了它们对因变量的平均因果影响,也不意味着获得了关于结果的原因的完整认识。拉金(Charles Ragin)指出,社会科学研究中的结果很少单独由一个因素导致。因此,研究者在探寻结果的原因的时候,更应关注各个原因的组合,而非构成一个组合的具体原因本身。例如,A、B、C都是对结果有影响的因素,但其中任何一个都不足以导致结果发生,只有当A、B、C同时出现时,结果才会发生。类似ABC这种由多个原因共同构成的因素组合被拉金称作组态(configuration)。此外,对很多社会现象来说,导致结果发生的路径往往不止一条。例如,A、B、C同时出现会导致结果发生,B、C、D同时出现也会导致结果发生。此时,ABC和BCD这两个组态就都是结果发生的原因。这种结果发生的因果路径不唯一的现象被称作殊途同归性(equifinality)。


综上所述,结果的原因无法通过将多个原因的结果简单相加得到,因此,通过逐个击破的方式分析结果的原因是不可行的。正如拉金所言,由鲁宾因果模型衍生出来的净效应思维(net-effect approach)长期在社会科学的因果分析中占据统治地位。但研究者在求解净效应的同时,必然要剥离核心自变量与其他变量之间的联系,因此无法揭示出因果关系的组态特征。除此之外,净效应也通常表现为一种平均因果效应,而计算平均值的过程也很容易抹杀同一个自变量在不同因果路径中的不同影响,因此难以揭示因果效应的异质性。近年来,关于因果效应异质性的分析逐渐在因果推断中崭露头角,这在一定程度上反映出学术界对鲁宾因果模型长期主要关注平均因果效应的不满。但现有关于因果效应异质性的分析方法的主要目标仍是求解原因的(异质性)结果,对结果的原因这一长期被主流因果推断方法所忽视的问题的帮助依然十分有限。




(二)因果识别与因果机制




最后,关于鲁宾因果模型的另一个常见批评是,该模型长于因果识别,但短于机制解释。具体来说,我们可以通过鲁宾因果模型定义和计算X对Y的平均因果影响,但难以说明X对Y的影响是如何产生的。以前文介绍的随机对照试验为例,该方法通常被视作当下运用鲁宾因果模型进行因果推断的黄金标准。但即便在一个设计良好的随机对照试验中,研究者也只能确定干预变量对因变量的影响大小,而无法对因果机制进行深入透彻的分析。


唐世平认为,在人类关于实验法的漫长发展历程中产生了两种不同的实验逻辑。一是类似随机对照试验的实验逻辑,该实验逻辑的主要目标是确定自变量对因变量有无因果影响以及因果影响的大小,鲁宾因果模型在一定程度上就是在此逻辑基础上发展起来的。与此不同的是,在很多自然科学的实验研究中还存在另一套以揭示因果机制为主要目标的实验逻辑。例如,很多分子生物学研究会对实验试剂做标记,然后观察被标记的物质在细胞间的转移和扩散,进而理解生化反应背后复杂的因果机制和过程。唐世平认为,社会科学中的定量研究传统长期只存在第一种实验逻辑,缺乏第二种实验逻辑,这导致其研究结论背后往往存在一个难以解释的“黑箱”。如果因果分析的最终目标是回答关于“为什么”的问题,那么这种黑箱式的解释显然是不够的。因此,如何打破黑箱,或者说对因果影响赋予机制解释始终是应用鲁宾因果模型的一大难题。


当前,定量研究应对这一难题的主要途径是寻找连接自变量和因变量的中介变量,然后进行中介效应(mediation effect)分解。但在鲁宾因果模型框架之下进行中介效应分解需要满足非常苛刻的条件。首先,它要求自变量对因变量的总效应(total effect)是可以识别的。其次,它还要求自变量对中介变量的影响以及中介变量对因变量的影响也是可以识别的。只有在同时识别出上述三个效应的前提下,才能使用因果效应的分解公式,计算总效应中可以由中介变量解释的中介效应以及不能被中介变量解释的直接效应(direct effect)。但如前所述,基于鲁宾因果模型识别出一个因果效应就非常困难,要同时识别出三个因果效应无疑是难上加难。更何况在很多研究中,连接自变量和因变量的中介变量不止一个,因此,在鲁宾因果模型框架下进行完备的中介效应分析几乎是不可能的。


虽然如此,当下依然有很多学者在研究中使用了中介效应的分解方法,例如在回归模型中逐步纳入中介变量,同时观察核心自变量的系数如何发生变化。但正如江艇所言,这些研究大多不满足识别中介效应的严苛条件,因此,存在很多关于中介效应分析法的误用和滥用。笔者认为,存在大量误用和滥用的事实也在一定程度上表明,学界对探索因果机制存在强烈的渴望,只是这种渴望无法在现有的因果分析框架下得到满足。因此,我们一方面应遵循因果中介分析的原理,进行严谨的中介效应分解;另一方面,也要思考如何突破鲁宾因果模型的限制,将因果识别和机制解释更好地结合起来。




五、应对:定量与定性




综上所述,鲁宾因果模型在实际应用中虽然取得了很多成就,但也面临不少挑战,针对这些挑战,定量与定性学者提出了不同的应对方案。




(一)改进定量设计




首先,从定量研究的角度,应对这些挑战的主要策略是改进研究设计。鲁宾曾在2008年撰写了一篇回顾性文章,在文章标题中,他特别强调,对于客观的因果推断,“设计胜于方法”,足见其对研究设计的重视。


鲁宾认为,对因果推断最有力的研究设计是实验。因此,只要条件允许,研究者应当优先采用实验法。除了传统意义上在实验室开展的随机对照试验,研究者还可以借助实地实验(field experiment)、调查实验(survey experiment)、互联网实验(Internet experiment)等新兴工具开展研究。


实地实验是指在真实情境下开展的实验研究。与实验室实验相同,研究对象也会通过随机方式被分到干预组和控制组,但因为实验在真实情境下开展,其结论外推的可靠性更大。关于实地实验的一个经典案例是美国兰德公司(Rand corporation)于1974年至1982年间进行的一项健康保险实验。来自美国6个地区的2000多个家庭参与了这项实验。兰德公司通过随机方式将参与者分配到不同自付水平的保险方案中,研究发现,部分自付的保险支付方式能降低卫生服务利用和卫生费用,并且适当的自付也不会显著影响被保险人的健康。免费虽能增加卫生福利利用的公平性,改善穷人、高危人群和患病者的健康,但其代价过于高昂。这些发现为美国后续的医疗制度改革奠定了基础。


调查实验是指通过抽样调查开展的实验研究,它兼具调查和实验的双重特征。一方面,从调查的角度,调查实验通常使用大规模的概率或非概率抽样方法采集有代表性的样本,因此,其结论具有较好的可推广性和外部效度。另一方面,从实验的角度,调查实验允许研究者操纵干预变量,并对样本进行随机分组,因此,可以保证因果推断的准确性及内部效度。关于调查实验的一个经典案例是阿尔维斯(Wayne Alves)和罗西(Peter Rossi)对分配公平感的研究。他们根据教育、职业、性别、种族、婚姻状况、子女数和收入随机构造了多个虚拟人物,然后将这些虚拟人物随机发放给受访者评估其收入的公平性。据此,阿尔维斯和罗西分析了影响美国民众分配公平感的不同因素。


互联网实验是指在互联网平台开展的实验研究。从某种程度上说,它也是一种实地实验,只不过在互联网平台开展实验研究的成本更低,因此近年来得到了很多学者的青睐。关于互联网实验的一项经典案例是萨尔加尼克(Matthew Salganik)等学者对文化产品市场不公平性的研究。他们在互联网平台招募了大量参与者为多首从未面世的歌曲打分。参与者被分为两组,实验组能够浏览别人对歌曲的评价,而控制组则不能了解其他人的评价。实验结果发现,无论是控制组还是实验组,质量好的歌曲都更加受欢迎,但控制组中受好评的歌曲在实验组中更受好评。因此,对文化产品来说,质量虽然重要,但人们的评价同样会受到他人评价的影响,即存在所谓的“赢家通吃”现象。

图片

虽然近年来定量学者发展出了多种实验研究方法,但仍有很多问题无法通过实验法开展研究。例如,调查实验、互联网实验等方法对研究观念、动机、态度很有帮助,但对真实行为的研究则不太有效。实地实验虽然兼顾内部效度和外部效度,但代价过于高昂。因此,当下大多数社会科学研究仍要依靠观察数据推断因果。对此,鲁宾提出了改善观察研究设计的五点建议。首先,研究者需要假想在理想的实验情境下,研究会如何开展。其次,将理想的实验研究和实际中的观察研究进行对比,确定导致干预变量非随机分配的主要原因。第三,确保那些影响干预变量非随机分配的变量都能得到有效测量。第四,通过恰当的统计方法使干预组和控制组在所有干扰因素上都能保持平衡。最后,在平衡所有干扰因素后对干预组和控制组进行比较研究。鲁宾认为,虽然不是所有观察研究都能通过上述步骤实现有效的因果推断,但基于严谨设计的研究一定强于没有预先设计的研究,因此,研究设计对提升观察研究的可靠性至关重要。




(二)结合定性工具




其次,从定性研究的角度,很多学者认为,定量研究难以回答所有与因果推断有关的问题,而结合定性工具则能有效弥补定量研究的缺陷。具体来说,定性工具对因果推断的贡献主要表现在以下三个方面。


第一,帮助完善定量研究设计。以上文提过的斯诺对霍乱的研究为例,在这项研究之前,人们普遍认为霍乱是因为吸入了被霍乱病菌污染的空气导致的。但在经过大量调查走访之后,斯诺对这一流传甚广的“瘴气理论”提出了质疑。他发现,将病人隔离这种理应有效的方法并不能阻断霍乱的传播。此外,那些在疫情期间进入伦敦的商船并没有爆发霍乱,但如果商船上的水手在伦敦补给了水和食物,则很可能感染霍乱。基于这些案例研究,斯诺指出,霍乱并不是通过空气传播的,而是一种消化道疾病,伦敦被污染的水源才是引发霍乱的源头。为了进一步证明水源的影响,斯诺又对伦敦的供水系统进行了大量的调查走访工作,这使他敏锐地观察到有一家供水公司在1849年将水源地从泰晤士河的下游挪到了上游,之后才有了那项被后世铭记的自然实验研究。由此可见,虽然定量的自然实验在斯诺论证霍乱的致病因素时发挥了至关重要的作用,但如果没有之前的一系列定性调查,斯诺根本不可能设计出这样一个实验。事实上,除了斯诺的这项著名研究,流行病学史上很多重大发现背后都有定性推理和案例分析的身影,弗里德曼(David Freedman)曾对此进行过详细介绍。因此,一项好的定量研究设计往往需要定性的知识和判断作为基础,对自然实验、工具变量、断点回归等较为精巧的定量研究设计来说更是如此。所以,定量研究者不仅要精进定量分析技术,还要对研究问题有非常深入的定性了解,只有这样才能独具慧眼地发现那些独到的研究设计,提升因果推断的解释力和可信度。


第二,更好地分析结果的原因。与定量学者专注于求解X对Y的因果影响,即原因的结果不同,定性学者更加关注结果的原因。例如,定性学者通常会挑选多个结果已经发生的个案,然后深入探究这些个案中的结果是如何产生的。在探究过程中,定性学者开发了一些独特的分析工具,其中较有代表性的是拉金提出的定性比较分析(qualitative comparative analysis,QCA)。该方法是一套建立在逻辑学和集合论基础上的分析技术。在使用时,研究者需要首先将变量转换为集合,然后通过集合之间是否有超集(superset)或子集(subset)关系来判断结果发生的必要原因和充分原因。举例来说,在研究贫困的影响因素时,如果发现贫困者都没有上过大学,即没上大学是贫困的超集,那么可以认为没上大学是贫困的一个必要原因。如果发现没上大学的人都是贫困者,即没上大学是贫困的子集,那么可以认为没上大学是贫困的一个充分原因。在社会科学中,充分原因很少由单个原因构成,而是表现为多个原因的组合。例如在研究致贫因素时,没上大学这一个原因通常不足以导致贫困,但没上大学加上农村出生和身体残疾很可能会导致出现贫困的结果。此时,这三个因素的组合是贫困的一个充分原因,这个组合就是上文所说的组态,它可以通过对没上大学、农村出生和身体残疾这三个集合进行交集(intersection)运算得到。在具体研究时,导致结果发生的条件组合很可能不止一个,对不同的条件组合进行并集(union)运算可以展示结果出现的不同因果路径,这就是上文所说的殊途同归性。在实际研究时,定性比较分析有多种不同的类型,如清晰集QCA(crisp-set QCA)、模糊集QCA(fuzzy-set QCA)、多值集QCA(multivalve-set QCA)等。受篇幅所限,本文无法对这些方法逐一进行介绍,感兴趣的读者可以参考相关教材和论文。


第三,更好地阐释因果机制。定性研究的一个突出优势是可以深入探究因果关系得以建立的复杂机制。格尔茨(Gary Goertz)和马奥尼(James Mahoney)认为,对定性研究来说,没有机制就没有因果。因此,结合定性研究可以在很大程度上弥补定量研究难以分析因果机制的不足。定性学者进行机制分析的一个常用方法是过程追踪(process tracing)。这是一种通过深入细致的观察,以求确立从原因到结果之间不间断的因果路径链条的方法。运用这一方法的经典案例是布雷迪(Henry Brady)对2000年美国总统大选的一项研究。在这次大选期间,佛罗里达州部分地区在投票截止前10分钟提前公布了布什落选的结果。一些研究认为,这导致布什损失了约1万张选票,而布雷迪则通过严谨的推理否定了这一说法。布雷迪指出,如果提前公布选举结果对投票产生了影响,那么它必然通过以下过程发挥作用:第一,选民原本决定在最后10分钟去投票;第二,该选民打算投给布什,而不是布什的竞争对手;第三,该选民在投票前通过某种方式收到了布什落选的结果;第四,因为得知布什落选,该选民放弃了投票。布雷迪的测算结果显示,同时满足以上四个条件的选民数量在28—56人之间,因此,认为提前公布选举结果导致布什损失1万票的说法没有依据。在这个例子中,布雷迪通过过程追踪法否定了一个因果关系(假设检验型)。此外,研究者也可以使用该方法揭示连接原因与结果的中间过程(机制解释型)。由于篇幅限制,本文不再举例说明,感兴趣的读者可以参考相关教材和论文。




六、走向方法论多元主义




综上所述,鲁宾因果模型为社会科学带来了一场前所未有的因果革命。与以往相比,当代的社会科学家不仅对因果概念有了更加深刻的理论认识,而且发展出了更加丰富多元且更加有效的因果分析工具。但是,即便在这样一个因果分析得到极大发展的时代,我们也还是无法解决所有复杂的因果问题,“相关不是因果”的统计戒律依然应当被研究者牢记在心。


与国外相比,国内学者对因果推断方法的认识和应用起步较晚,但在最近十几年取得了突飞猛进的发展。不过,在这种快速发展的背后也隐藏着一些令人担忧的问题。例如,一些学者(包括很多期刊)对各种方法背后的假设了解不够深入,加上对复杂方法优于简单方法的错误认识,学界存在较为明显的“方法至上主义”倾向。此外,在经济学等一些学科中,存在过分抬高因果推断重要性的问题,导致研究者一味追求因果识别,忽视对很多重要但难以做出明确因果判断的问题的研究。最后,目前国内学者对因果推断的理解大多局限于定量方法和因果识别,对定性取向的因果推断方法,如定性比较分析、过程追踪法等缺乏足够了解,这既阻碍了对因果问题的全面认识,也不利于定量与定性两个研究范式的交流和相互促进。鉴于此,本文借鲁宾因果模型问世五十年这个契机,对该模型的发展历程进行了较为全面的回顾。与以往研究大多强调该模型的优势不同,本文使用较大篇幅论述了鲁宾因果模型在实际应用过程中面临的挑战和局限。这既包括将该模型应用于观察研究时无法保证随机分配假定的局限,也包括为了满足近似随机分配的合理性,而无视研究问题的实质重要性的缺陷。除此之外,鲁宾因果模型在分析结果的原因和识别因果机制方面也存在不足。笔者认为,仅仅依靠定量方法难以克服所有不足,因此,未来关于因果关系的研究应当摆脱定量研究一家独大的局面,走向方法论多元主义。


首先,正如鲁宾所言,科学的因果推断需要良好的研究设计做支撑,但除了实验设计可以保证因果推断所必需的可忽略性假定之外,事实上没有第二种研究设计能够确保这一点。近年来,定量学者开发出了种类繁多的因果推断方法,但这些方法都有假定,而且这些假定无法通过定量方法得到检验,而只能通过定性知识加以论证。由此可见,一项好的定量研究设计往往建立在扎实的定性研究基础之上。所以,定量学者也应适时地走进田野,在对研究问题获得充分认识之后再进行研究设计,这样无论是选择控制变量,还是寻找自然实验、工具变量、断点回归等因果识别途径,都会收到事半功倍的效果。


其次,定量研究和定性研究适用于回答不同性质的因果问题。定量研究往往从定义原因变量开始,探究其结果;而定性研究往往从确定结果开始,回溯结果产生的原因。除此之外,定量研究和定性研究在因果识别和机制解释方面也各有所长。因此,从某种程度而言,定量研究和定性研究是互补的,只有将二者结合起来,才能对因果关系进行全面和透彻的分析。然而,或许是受到了鲁宾因果模型的影响,统计方法或定量研究长期在因果推断领域占据统治地位,这导致人们逐渐将因果分析等同于求解原因的结果,而且在识别出原因的结果之后,也很少对连接原因和结果的机制进行深入透彻的分析。


为了弥补单一使用定量方法的不足,近年来很多学者主张在探索因果问题时兼顾定性方法,或者说开展融合定量与定性两种方法的混合研究(mixed methods research)。但在实践中,如何推进混合研究依然有很长的路要走。一方面,开展混合研究需要同时掌握定量和定性两种研究资料,且研究者也需要同时具备定量和定性两种研究技能,这无疑加大了研究的难度。另一方面,不同学者对混合研究的具体实施方式依然存在争议。克雷斯维尔(John Creswell)和查克(Vicki Clark)指出,混合研究有三种不同的研究进路:一是从定量研究出发,在识别出自变量对因变量的因果效应之后,挑选部分个案进行定性研究,以进一步分析连接自变量和因变量的因果机制;二是从定性研究出发,在探索出大致的因果规律之后开展大规模的抽样调查,以进一步研究这种因果规律在大样本中的适用性;三是定性研究和定量研究同时进行,并对两种来源的数据进行汇总分析和交叉检验。笔者认为,除了上述三种研究进路,研究者也可以通过其他方式将定量与定性方法结合起来。以斯诺对霍乱的研究为例,我们可以采取如下一种混合研究路径,即:首先,对研究问题进行初步的定性探索(如斯诺探索霍乱的起因);其次,在探索过程中获得一个比较明确的方向(如斯诺指出,不干净的水源是导致霍乱的一个原因);再次,找到了识别因果影响的途径(如斯诺发现了一个自然实验);最后,研究进入定量分析部分(如斯诺搜集两家供水公司的数据,分析水源地改变对霍乱的影响)。总之,混合研究不一定要拘泥于固定的程式,只要同时使用定量和定性两种方法有助于更加清晰地阐述因果关系,这种混合就有价值和意义。


最后,也许更加重要的是,进行混合研究还需要在思维层面打破定量和定性之间的固有边界,能够相互欣赏对方的学术价值和贡献。金(Gary King)、基欧汉(Robert Keohane)和维巴(Sidney Verba)曾在1994年撰写了一本争议很大的方法论著作——《社会科学中的研究设计》。该书试图以定量学者的视角重新规范定性研究,但很快遭到了定性学者的集体批判和拒绝。笔者认为,导致这一结果的主要原因不在于这三位作者提出的定量研究准则对改善定性研究设计没有任何帮助,而是在于他们以一种相对傲慢的姿态将定量研究凌驾于定性研究之上,因而,缺乏对定性研究的足够尊重和理解。社会科学区别于自然科学的一个重要特征在于,不同研究范式没有绝对的高下之分,因此,不会出现库恩描述的一种范式取代另一种范式的革命性变化。也正是由于这个原因,社会科学研究者常常分裂为不同的阵营,身处各个阵营的学者通常只认同本阵营内的价值规范,对其他阵营的研究取向不仅缺乏了解,甚至有时根本不愿意了解。很明显,这种相互漠视甚至敌对的态度不利于混合研究的开展,以至于混合研究在很多时候成为了一种口号:摇旗呐喊者很多,而真正实践者很少。笔者认为,要从根本上改变这一局面必须从定量和定性学者学会相互欣赏开始,借用费孝通论述不同文化之间相互关系时的一句话,定量和定性学者只有做到“各美其美、美人之美”,才能实现“美美与共、天下大同”。也只有在这种情况下,不同学术阵营之间才能减少敌对,增加共识,混合研究也才能走向真正的繁荣。


发表评论
搜索
关注我们

扫一扫关注我们,了解最新精彩内容

快捷导航返回顶部
润凌网络
在线留言
联系电话