小红花·文摘

本研究提出了一种元梯度下降（MGD）方法，旨在优化大规模机器学习模型的训练配置。MGD通过高效计算元梯度和“平滑模型训练”框架，在数据集选择和学习率调度方面显著提升了效果，优于现有的数据中毒攻击。

BriefGPT - AI 论文速递 ·

本研究分析神经自回归语言模型中的上下文化表征，重点关注长距离上下文的编码能力。通过新的度量方法，揭示不同模型在下游任务中的表现差异，并探讨如何通过模型大小和训练配置改善这一能力。

BriefGPT - AI 论文速递 ·