有关带相关样本的岭回归中的风险与交叉验证
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了存在重尾污染时,强鲁棒回归估计器的高维特性。结果显示,在存在重尾噪声时,优化调整的Huber损失与位置参数δ是次优的,需要进一步正则化以达到最佳性能。此外,对于有限二阶矩的噪声分布,岭回归是最佳的,但当协变量的二阶矩不存在时,其衰减速率可能更快。最后,该研究还可以推广到更丰富的模型和数据分布。
🎯
关键要点
- 研究了在重尾污染情况下强鲁棒回归估计器的高维特性。
- 提供了M-估计在无二阶甚至更高阶矩情况下的锐性渐近特性描述。
- 优化调整的Huber损失与位置参数δ在重尾噪声下是次优的,需要进一步正则化以达到最佳性能。
- δ作为样本复杂性和污染的函数存在有趣的转变。
- 导出了岭回归的超额风险衰减速率,有限二阶矩的噪声分布下岭回归是最佳的。
- 当协变量的二阶矩不存在时,岭回归的衰减速率可能更快。
- 公式可以推广到更丰富的模型和数据分布,如混合模型的任意凸正则化训练的广义线性估计。
➡️