CLIMB: Clustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了CLIMB框架,解决了预训练数据集缺乏领域划分的问题。CLIMB能够自动发现和优化数据混合,训练的1亿模型在特定领域(如社会科学)上性能提升5%,超越了Llama-3.2-1B。

🎯

关键要点

  • CLIMB框架解决了预训练数据集缺乏领域划分的问题。
  • CLIMB能够自动发现、评估并优化数据混合。
  • 在4000亿个标记上训练的1亿模型在特定领域(如社会科学)上性能提升5%。
  • 使用CLIMB的模型性能超越了最新的Llama-3.2-1B。
➡️

继续阅读