有关带相关样本的岭回归中的风险与交叉验证
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有岭回归理论中假设训练样本独立的问题,提出了一种基于随机矩阵理论和自由概率的新方法。研究发现,当样本间存在任意相关性时,传统的广义交叉验证估计器(GCV)无法准确预测外部样本风险,但通过对噪声残差的相关性进行调整,可以得到高效可计算的无偏估计器CorrGCV,带来了重要的理论与实践价值。
本文研究了存在重尾污染时,强鲁棒回归估计器的高维特性。结果显示,在存在重尾噪声时,优化调整的Huber损失与位置参数δ是次优的,需要进一步正则化以达到最佳性能。此外,对于有限二阶矩的噪声分布,岭回归是最佳的,但当协变量的二阶矩不存在时,其衰减速率可能更快。最后,该研究还可以推广到更丰富的模型和数据分布。