小红花·文摘

Apple Machine Learning Research ·

本文讨论了随机权重平均（SWA）及其变体在深度学习中的应用，强调其在提升模型泛化能力和稳定性方面的优势。研究表明，SWA、HWA、WASH等方法在图像分类和自然语言处理任务中显著提升了性能，且计算成本低。这些方法有效解决了模型过度自信和校准不佳的问题。

BriefGPT - AI 论文速递 ·

现代自回归语言模型研究了上下文学习中的校准问题。实验表明，模型大小和数据集微调对性能与校准之间的权衡有显著影响。提出的线性校准技术（LinC）在少量样本下显著提升模型预测性能，平均改善率达21%。此外，研究了标签偏移现象，并提出生成校准方法，优化了文本分类任务的表现。

BriefGPT - AI 论文速递 ·