社会福利的自适应最大化

英文标题

Adaptive Maximization of Social Welfare

Nicolò Cesa-Bianchi, Roberto Colomboni, Maximilian KasyEconometrica, Vol. 93, No. 3, May 2025DOI: 10.3982/ECTA21582

政策制定者如何在不确定环境中序贯选择税率以最大化包含不可观测私人效用的社会福利？本文首次将最优税收理论与在线学习（online learning）和多臂老虎机（multi-armed bandit）算法相融合，建立了社会福利自适应最大化的一般框架。在基准模型中，个体序贯到达并做出二元决策（如是否就业），政策制定者在每期选择税率后仅观测到个体的行为反应（如就业与否），但无法观测其私人效用。社会福利定义为私人效用与公共收入的加权和——其关键困难在于：要学习某个税率的福利效应，必须学习反事实税率的消费者剩余积分，而这要求探索明显次优的政策空间。理论分析给出了三组核心结果。第一，在任何算法下，累积后悔（cumulative regret）的随机下界增长速率为 T^{2/3}——劣于标准多臂老虎机问题的 T^{1/2} 速率，意味着福利最大化比简单的奖励最大化更难学习。第二，作者提出了一种改进的 Exp3 算法（tempered Exp3），通过引入额外的反事实探索并离散化连续政策空间，实现了与下界匹配的对抗性后悔上界 T^{2/3}（至多差一个对数项），从而完全刻画了该学习问题的速率特征。第三，在社会福利为凹函数的更有利设定下，作者提出"社会福利二分搜索"算法（Dyadic Search for Social Welfare），将后悔速率大幅提升至 T^{1/2}（至多差对数项），恢复了标准老虎机问题的速率。论文进一步将框架扩展至非线性所得税（含随收入能力变化的福利权重）和商品税（含连续消费向量），为"学习型政策制定"——在序贯实验中边学习边优化社会福利——提供了严谨的算法基础和性能保证。