ECTAECTA-2025-05-08
英文标题

Gaussian Transforms Modeling and the Estimation of Distributional Regression Functions

Richard H. Spady (Johns Hopkins University and Nuffield College, University of Oxford), Sami Stouli (University of Bristol and University of Melbourne)Econometrica, Vol. 93, No. 5 (September, 2025), pp. 1885–1913DOI: 10.3982/ECTA21976

灵活地建模和估计条件分布函数是计量经济学中的核心难题——既要保证模型足够灵活以刻画复杂的条件密度和条件分布,又要确保估计结果满足单调性等基本性质,且不因维度诅咒而不可行。本文提出了一个统一的信息论框架,以高斯变换(Gaussian Transform, GT)为建模对象,重构了条件分布回归分析的基本范式。

核心策略:不直接建模条件 CDF 或 PDF,而是先通过高斯分位数变换将条件 CDF 的值域从单位区间扩展到整个实直线,然后设定变换后的对象 e = g(Y, X) 为已知函数的线性组合 b′T(X, Y) = b′[W(X) ⊗ S(Y)]。这一策略带来三大关键优势:(1) 条件 PDF 表达式 f(y|x) = φ(b′T) · b′t 天然避开传统 sieve ML 中无法封闭求解的积分归一化因子;(2) 似然函数中的对数障碍项 log(b′t) 直接内化了单调性约束,在有限样本和错误设定下均自动排除非单调模型;(3) 一阶条件在 b′T 中保持线性,为推导对偶规划和实现高效凸优化铺平道路。

四大理论贡献:第一,目标函数 Q(b) = E[−½(b′T)² − log(2π)/2 + log(b′t)] 在有效域 B = {b: Pr[b′t(X,Y) > 0] = 1} 上严格凹且具有唯一最大值,对数 Jacobian 项作为自然对数障碍函数保证单调性。第二,即使在错误设定下,最大化 Q(b) 仍得到唯一的"拟高斯表示",且在适当边界条件下该表示给出条件 PDF、CDF 和 CQF 的 KLIC 最优逼近。第三,估计量以参数化速率(√n 一致)收敛并具有渐近正态性,有效缓解了维度诅咒。第四,推导了原始问题的凸对偶规划——一个具有对角 Hessian 矩阵和线性约束的严格凸优化问题,可通过现代求解器高效实现,对偶变量具有闭合形式表达式。

应用与扩展:基于 2019 年美国社区调查约 20 万观测数据,对 41 个行业-职业分组的性别工资差距进行分布分析,发现差距在分位数分布上存在显著异质性——中位数以上分位数存在统计显著且非线性的工资差距,受教育年限超过 16 年后差距急剧分化;男性工资分布呈双峰而女性呈单峰。方法还扩展至逻辑变换回归、混合离散-连续结果变量和多结果变量的递归高斯变换(Rosenblatt 变换的 Gaussian 版本)。未来研究方向包括样本选择与内生性处理。