Hiring as Exploration
该研究将企业招聘过程建模为一个 contextual bandit(情境多臂老虎机)问题:企业为了长期找到最佳员工,必须在"利用"(从有历史记录的群体中筛选)与"探索"(从代表性不足的群体中筛选以了解其质量)之间取得平衡。然而,当前主流的招聘算法基于监督学习(supervised learning),仅关注利用已有训练数据做预测,忽视了探索的价值。作者利用一家财富 500 强企业 2016-2019 年间 88,666 份求职申请数据,构建了两类算法:一是基于 LASSO 逻辑回归的监督学习模型(SL),二是基于 Upper Confidence Bound(UCB)的 contextual bandit 模型。SL 模型仅根据预期招聘概率的估计值筛选候选人,而 UCB 模型在此基础上增加一项"探索奖励"(exploration bonus),使算法偏好统计不确定性更高的候选人。研究发现,两类算法均能提高面试候选人的招聘成功率(hiring yield)——SL 模型和 UCB 模型的预期招聘率分别为 32% 和 27%,远高于人类招聘者的 10%。然而,两类算法对多样性的影响截然相反:SL 模型将黑人和西班牙裔候选人的面试比例从 9.4% 降至 4.2%,而 UCB 模型将该比例提升至 24.3%。为克服选择性标签(selective labels)问题——只有被实际面试的候选人才能观察到招聘结果——作者采用了三种互补的识别策略:仅使用面试样本、逆倾向得分加权(IPW)以及在招聘者随机分配基础上的工具变量(IV)估计。IV 分析表明,在边际上遵循 UCB 推荐既能提高招聘成功率,也能增加少数族裔代表性。研究进一步表明,即便将人口统计特征从模型输入中剔除,UCB 模型仍能提升多样性;而强制性配额的 SL 模型虽可增加多样性但牺牲了质量。该研究首次提供实证证据表明,算法设计可以实现效率与公平的 Pareto 改进,挑战了招聘中效率-公平必然权衡的经典假设。