小红花·文摘

本研究探讨在训练大型语言模型时如何平衡数据的质量、数量和来源多样性。提出了两种新方法：UtiliMax和模型估计数据效用（MEDU），显著提高了训练效率并降低了计算需求，为数据混合的自动化和高效计算提供了新框架。