Hiring as Exploration

Danielle Li (MIT and NBER), Lindsey Raymond (MIT), Peter Bergman (University of Texas at Austin and NBER)Review of Economic Studies, 2026, 93(2), 1200–1240DOI: 10.1093/restud/rdaf040

该研究将企业招聘过程建模为一个 contextual bandit（情境多臂老虎机）问题：企业为了长期找到最佳员工，必须在"利用"（从有历史记录的群体中筛选）与"探索"（从代表性不足的群体中筛选以了解其质量）之间取得平衡。然而，当前主流的招聘算法基于监督学习（supervised learning），仅关注利用已有训练数据做预测，忽视了探索的价值。作者利用一家财富 500 强企业 2016-2019 年间 88,666 份求职申请数据，构建了两类算法：一是基于 LASSO 逻辑回归的监督学习模型（SL），二是基于 Upper Confidence Bound（UCB）的 contextual bandit 模型。SL 模型仅根据预期招聘概率的估计值筛选候选人，而 UCB 模型在此基础上增加一项"探索奖励"（exploration bonus），使算法偏好统计不确定性更高的候选人。研究发现，两类算法均能提高面试候选人的招聘成功率（hiring yield）——SL 模型和 UCB 模型的预期招聘率分别为 32% 和 27%，远高于人类招聘者的 10%。然而，两类算法对多样性的影响截然相反：SL 模型将黑人和西班牙裔候选人的面试比例从 9.4% 降至 4.2%，而 UCB 模型将该比例提升至 24.3%。为克服选择性标签（selective labels）问题——只有被实际面试的候选人才能观察到招聘结果——作者采用了三种互补的识别策略：仅使用面试样本、逆倾向得分加权（IPW）以及在招聘者随机分配基础上的工具变量（IV）估计。IV 分析表明，在边际上遵循 UCB 推荐既能提高招聘成功率，也能增加少数族裔代表性。研究进一步表明，即便将人口统计特征从模型输入中剔除，UCB 模型仍能提升多样性；而强制性配额的 SL 模型虽可增加多样性但牺牲了质量。该研究首次提供实证证据表明，算法设计可以实现效率与公平的 Pareto 改进，挑战了招聘中效率-公平必然权衡的经典假设。