大规模语言模型的贝叶斯低秩自适应的高斯随机权重平均化
原文中文,约400字,阅读约需1分钟。发表于: 。基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题,为了解决这些挑战,我们提出了低秩自适应和高斯随机权重平均的简单结合,促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试,我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性,这体现在其在未知分布任务上的表现。
本文介绍了一种在时间受限环境下的分布式深度学习模型训练的新算法,通过加权平均推动工作节点接近计算得出的中心变量,以优先恢复优化景观中的平坦区域。实验证明该算法具有更快的收敛速度和恢复更好的质量和平坦的局部最优解。同时,该算法在更拥挤的分布式训练环境中具有可扩展性,并且需要较少的通信频率和分布式更新。