胜者推断:基于选择性偏差的估计量修正与置信区间构建
Inference on Winners
政策制定者、企业和研究者常常基于多个选项的估计效果来选择"最佳"方案,但这种数据驱动的选择会产生"胜者诅咒"(winner's curse)——当选出表现最好的选项时,其效果估计会系统性地向上偏误,且常规置信区间会失效。该论文系统构建了一套消除胜者诅咒的估计量和置信区间方法。研究提出三种推断路径:条件推断(conditional inference),保证在给定所选选项的条件下实现正确覆盖;投影推断(projection inference),确保无条件覆盖;以及一种新颖的混合推断(hybrid inference)方法,结合前两者的优势,被推荐为默认方法。方法的核心思想基于截断正态分布:当选出的"胜者"的估计值必然大于其他所有选项时,其条件分布不再是完整的正态分布,而是被截断的正态分布,由此构造出的分位数无偏估计量和等尾置信区间可纠正选择性偏差。所有有限样本结果均可通过一致渐近正态近似转化为大样本下的可行推断程序,且该近似在全域数据生成过程上具有一致有效性。论文通过两个实证应用展示方法表现:其一是JOBSTART职业培训实验,涵盖13个实验点的随机对照试验数据,核心发现胜者诅咒本身无法解释原始实验与复制实验之间的效果差异(p值高度显著),指向了项目实施异质性等其他因素;其二是基于Chetty et al.(2020)Opportunity Atlas的社区经济流动性数据,在全美50个最大通勤区中选区"最好"的三分之一社区后发现,经混合推断修正后的平均流动性收益为10.27个百分位点(常规估计为12.25),置信区间虽有所拓宽(平均宽度从1.13增加到3.58个百分位点)但仍提供有效信息,且在所有50个通勤区中排除零值,强烈支持目标社区选择策略的有效性。论文同时证明样本分割法会降低约26%的选择质量,而基于正态先验的经验贝叶斯方法在先验误设时无法完全纠正胜者诅咒。该方法已在政策评估、慈善捐赠实验等场景中得到扩展应用,对需要从多个候选政策或干预措施中进行数据驱动选择的实证研究具有方法论奠基意义。