小红花·文摘

本文探讨了大语言模型在持续预训练中的学习动态，分析了通用性能与特定领域性能的演变，并提出了CPT缩放法则，为训练超参数优化提供新见解。

Learning Dynamics of Continuous Pre-training in Large Language Models

BriefGPT - AI 论文速递 ·

通过自回归模型的适应扩展扩散语言模型

Apple Machine Learning Research ·

通过持续预训练对数据集进行特征化并构建更好的模型

Databricks ·

这篇研究论文提出了一种简单有效的方法，用于在新数据可用时持续预训练大型语言模型。通过结合学习率逐渐增加和逐渐减小以及周期性重播之前的数据等简单技术，研究人员能够在使用更少计算资源的情况下，与完全重新训练模型的性能相匹配。这些发现对于大型语言模型的实际部署具有重要意义，使其能够以可扩展和高效的方式保持最新状态。进一步研究语言模型的持续学习技术可能会导致更强大和适应性更强的人工智能系统。

使用更少计算资源持续预训练大型语言模型的简单策略

DEV Community ·

本文介绍了一系列支持高达32,768个令牌的长上下文语言模型（LLMs），通过持续预训练，这些模型在长文本任务上相较于Llama 2取得显著提升。研究表明，适当的数据混合和持续预训练策略能有效扩展上下文长度至128K，并在长上下文理解方面表现优异。实验结果显示，商业模型在短依赖任务上优于开源模型，但在长依赖任务上仍面临挑战。