本研究分析了线性变换器在随机线性分类任务中的表现,特别是梯度下降的隐式正则化。研究发现,良好泛化需要适当的预训练任务和上下文示例数量,即使在标签翻转噪声下,变换器也能在干净测试中实现接近最佳的泛化效果。
完成下面两步后,将自动完成登录并继续当前操作。