本研究探讨在训练大型语言模型时如何平衡数据的质量、数量和来源多样性。提出了两种新方法:UtiliMax和模型估计数据效用(MEDU),显著提高了训练效率并降低了计算需求,为数据混合的自动化和高效计算提供了新框架。
完成下面两步后,将自动完成登录并继续当前操作。