Optimizing Pretraining Data Mixtures with LLM-Estimated Utility

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨在训练大型语言模型时如何平衡数据的质量、数量和来源多样性。提出了两种新方法:UtiliMax和模型估计数据效用(MEDU),显著提高了训练效率并降低了计算需求,为数据混合的自动化和高效计算提供了新框架。

🎯

关键要点

  • 本研究探讨在训练大型语言模型时如何平衡数据的质量、数量和来源多样性。
  • 提出了两种新方法:UtiliMax和模型估计数据效用(MEDU)。
  • UtiliMax通过引入效用估计扩展基于标记的启发式方法,显著提高训练效率。
  • MEDU利用小样本进行效用估计,降低计算需求。
  • 研究结果为自动化、计算高效的数据混合建立了新的框架,具有广泛的应用潜力。
➡️

继续阅读