Apple Machine Learning Research ·

最佳数据混合的缩放法则

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文提出了一种系统方法，通过缩放法则确定目标领域的最佳数据混合比例，以提升大规模模型的性能。该方法能够准确预测模型在特定领域权重下的损失，并在大型语言模型、多模态模型和视觉模型的预训练中验证其有效性。通过少量小规模训练，能够估计参数并推断更大规模的性能，提供了一种替代昂贵试错方法的方案。

🎯

🔎

在大规模模型训练中，数据混合比例直接影响模型的性能。不同领域的数据比例选择不当，可能导致模型在特定任务上的表现不佳。因此，理解和优化数据混合是提升模型效果的关键步骤。

本文提出的缩放法则为确定最佳数据混合提供了一种系统化的方法，避免了传统试错法的高成本和低效率。通过少量小规模训练即可推断出大规模模型的性能，这为研究人员节省了时间和资源。

该方法已在大型语言模型、多模态模型和视觉模型的预训练中得到验证，显示出其广泛的适用性。研究者在应用时应关注不同领域的特性，以确保所选数据混合能够最大化模型的潜力。

❓

数据混合比例是指在训练大规模模型时，各个领域数据的使用比例，它对模型性能至关重要。

传统方法依赖于试错，尤其在大规模预训练中变得不切实际。

本文提出了一种系统方法，通过缩放法则来确定目标领域的最佳数据混合比例。

通过在大型语言模型、多模态模型和视觉模型的预训练中验证其有效性。

通过少量小规模训练，可以估计参数并推断更大规模的性能。

缩放法则提供了一种替代昂贵试错方法的方案，能够在给定训练预算下推导最佳领域权重。

🏷️