Fisher-Schultz Lecture: Generic Machine Learning Inference on Heterogeneous Treatment Effects in Randomized Experiments, With an Application to Immunization in India

Victor Chernozhukov (MIT), Mert Demirer (MIT Sloan), Esther Duflo (MIT), Iván Fernández-Val (Boston University)Econometrica, Vol. 93, No. 4, July 2025, pp. 1121–1164DOI: 10.3982/ECTA21831

随机对照实验中处理效应的异质性是学者和政策制定者的核心关切，但利用机器学习（ML）方法探索异质性面临根本性困境：在高维设定下，广义 ML 方法即使在预测层面表现卓越，其对条件平均处理效应（CATE）的估计也未必一致。本文开创性地提出了一套「非知论」（agnostic）推断框架，放弃对 CATE 函数本身的一致估计，转而聚焦于 CATE 的三个关键特征进行有效统计推断：(1) 最佳线性预测（BLP）——以 ML 代理预测变量为自变量，线性预测 CATE，检验是否存在可观测异质性并估计异质性载荷参数；(2) 分组平均处理效应（GATES）——按 ML 代理预测值的分位组报告各组平均效应，识别最受影响和最少受影响的子群体；(3) 分类分析（CLAN）——比较最受影响组和最少受影响组在基线协变量上的平均特征差异。方法论核心是样本分割（sample splitting）与分位数聚合（quantile aggregation）：在训练样本上估计 ML 代理预测变量，在保留样本上估计目标参数，重复多次随机分割后对估计值和置信区间取中位数聚合，以降低单次分割的报告风险。作者进一步提出通过「因果学习」（causal learning）——在初始预测 ML 基础上利用 BLP 目标函数进行提升（boosting）——可系统性地改善 CATE 代理预测变量的质量。该方法在 R 包 GenericML 中实现，并应用于印度哈里亚纳邦免疫接种助推实验：分析发现，激励+短信+社交网络大使组合处理效应存在巨大异质性——基线免疫率最低的村庄是最大受益者（每月额外 13.23 次麻疹疫苗接种），而基线免疫率最高的村庄反而呈现显著的负处理效应。该结果对政策精准投放具有直接指导意义。