稀疏网络渐近理论下的Logistic回归:允许模型误设的估计与推断
Sparse Network Asymptotics for Logistic Regression Under Possible Misspecification
考虑一个由N个消费者和M个产品构成的二部网络,每个消费者对每个产品做出"购买"或"不购买"的二元决策。该研究旨在回答:当网络呈稀疏特征(即实际发生的购买仅占所有可能购买的一小部分)且存在二元组依赖(dyadic dependence,即共享同一消费者或同一产品的买卖对之间存在相关性)时,logit回归的估计量与推断量具有怎样的渐近性质——尤其是在真实条件概率可能并不服从logit形式的情况下。这一问题在银团贷款市场匹配、企业区位选择、在线劳动力市场投标等现实情境中具有广泛的应用背景。
方法上,Graham提出了"稀疏网络渐近"(sparse network asymptotics)的全新渐近分析框架:令N和M以相同速率增长,但平均每个消费者购买的产品数量保持有限,从而实际购买边数远小于潜在边数。在允许回归函数误设的前提下,作者通过将logit模型设定为含ln(n)偏移项的序列形式,将伪复合似然(pseudo composite likelihood)的极限与Poisson总体的Kullback-Leibler信息准则(KLIC)最小化问题建立起联系。研究发现,logit伪真实参数(pseudo-true parameter)就是在上述KLIC意义下对条件度函数的最优指数近似——这类似于线性回归在均方误差(MSE)意义下对条件期望函数的近似。极限分布方面,作者利用三角阵列的鞅中心极限定理,证明了经过适当缩放后,logit估计量具有渐近正态性,且其渐近方差包含稀疏网络下特有、在稠密网络下会被忽略的额外方差成分。
核心发现有三。首先,伪真实参数θ₀是通过最小化KLIC选定,使得近似误差U_ij ≡ λ₀(W_i, X_j) − exp(R_ij'θ₀)具有零均值且与协变量正交,为误设情形下的logit估计赋予了类似于线性投影的清晰解释。其次,在稀疏渐近下,得分向量S_n(θ₀)的四个方差成分中,U₁n(消费者/产品层面投影项)和Vₙ(残差项)同阶且均不可忽略,这与稠密情形(仅U₁n占主导)形成根本性差异;因此,基于稠密渐近的推断会严重低估标准误。第三,当网络graphon退化为不含消费者或产品异质性(即不存在二元组依赖)的极限情形时,稀疏网络渐近下的正态性结果仍然成立——这在稠密情形下需要额外技术处理,体现了稀疏渐近框架的稳健性。
机制上,稀疏性的关键影响在于信息累积速率的降低:有效样本量不是NM = O(n²),而是O(n),因此Hessian矩阵和得分向量均需额外缩放以取得稳定的极限。同时,由于logit模型的概率约为O(1/n),二元Bernoulli试验被Poisson分布良好近似,从而自然导出Poisson-KLIC表征。
在银团贷款市场的实证应用中(基于Chen和Song 2013的数据,涵盖2003年前六个月39家银行与351家企业),实际贷款关系仅占所有可能配对的2%,是典型的稀疏网络。使用稀疏渐近标准误后,对数距离系数的标准误比稠密标准误大1.6倍,凸显了方法差异的实际重要性。基于数据校准的蒙特卡洛实验表明,稀疏95%置信区间的实际覆盖率接近名义水平(约93%),而稠密区间的覆盖率仅为53%左右,严重偏低。
政策含义上,该研究为经济学中大量涉及二部图网络的实证研究(产业组织的市场匹配、国际贸易的企业-目的国关系、劳动经济学的工人-企业匹配等)提供了更为可靠和普适的推断框架。研究者应在处理稀疏网络数据时采用稀疏渐近标准误而非传统的稠密渐近标准误,否则将面临严重的检验尺度扭曲和置信区间覆盖率不足的问题。此外,误设容忍框架使得研究者可以在模型仅为近似的现实设定下仍有明确定义的估计目标与有效的推断工具。