LLM 预训练中的基于贝叶斯优化的检查点合并

我们提出了一种在预训练大型语言模型中合并检查点的方法，通过贝叶斯优化在广泛的搜索空间中找到最佳合并权重，实验证明我们的方法在最大限度减少成本的同时增加了预训练能力，并展示了跨多个领域的强大泛化能力。

该研究将GPT-4与传统NLP任务相结合，利用CoT提示技术从GPT-4中提取知识，并应用于改进BERT在NER任务中的效率和效果。通过两阶段训练过程，该方法在预训练阶段使用GPT-4标注数据，并结合蒸馏和原始人标注数据来完善模型。混合训练策略优于仅使用人工标注的模型，达到更高的F1得分，并展示了在资源有限或封闭网络环境下的成本效益解决方案。研究还讨论了遇到的挑战，并提出了改进提示设计和注释选择的未来工作方向。发现显示出LLM与传统NLP技术之间的有希望的协同作用，为更易于接近和强大的NLP应用铺平了道路。

观测云	eolink
Dify.AI	LigaAI