Gaussian Transforms Modeling and the Estimation of Distributional Regression Functions
灵活地建模和估计条件分布函数是计量经济学中的核心难题——既要保证模型足够灵活以刻画复杂的条件密度和条件分布,又要确保估计结果满足单调性等基本性质,且不因维度诅咒而不可行。本文提出了一个统一的信息论框架,以高斯变换(Gaussian Transform, GT)为建模对象,重构了条件分布回归分析的基本范式。
核心策略:不直接建模条件 CDF 或 PDF,而是先通过高斯分位数变换将条件 CDF 的值域从单位区间扩展到整个实直线,然后设定变换后的对象 e = g(Y, X) 为已知函数的线性组合 b′T(X, Y) = b′[W(X) ⊗ S(Y)]。这一策略带来三大关键优势:(1) 条件 PDF 表达式 f(y|x) = φ(b′T) · b′t 天然避开传统 sieve ML 中无法封闭求解的积分归一化因子;(2) 似然函数中的对数障碍项 log(b′t) 直接内化了单调性约束,在有限样本和错误设定下均自动排除非单调模型;(3) 一阶条件在 b′T 中保持线性,为推导对偶规划和实现高效凸优化铺平道路。
四大理论贡献:第一,目标函数 Q(b) = E[−½(b′T)² − log(2π)/2 + log(b′t)] 在有效域 B = {b: Pr[b′t(X,Y) > 0] = 1} 上严格凹且具有唯一最大值,对数 Jacobian 项作为自然对数障碍函数保证单调性。第二,即使在错误设定下,最大化 Q(b) 仍得到唯一的"拟高斯表示",且在适当边界条件下该表示给出条件 PDF、CDF 和 CQF 的 KLIC 最优逼近。第三,估计量以参数化速率(√n 一致)收敛并具有渐近正态性,有效缓解了维度诅咒。第四,推导了原始问题的凸对偶规划——一个具有对角 Hessian 矩阵和线性约束的严格凸优化问题,可通过现代求解器高效实现,对偶变量具有闭合形式表达式。
应用与扩展:基于 2019 年美国社区调查约 20 万观测数据,对 41 个行业-职业分组的性别工资差距进行分布分析,发现差距在分位数分布上存在显著异质性——中位数以上分位数存在统计显著且非线性的工资差距,受教育年限超过 16 年后差距急剧分化;男性工资分布呈双峰而女性呈单峰。方法还扩展至逻辑变换回归、混合离散-连续结果变量和多结果变量的递归高斯变换(Rosenblatt 变换的 Gaussian 版本)。未来研究方向包括样本选择与内生性处理。