量子位 ·

调整训练数据出场顺序大模型就能变聪明！无需扩大模型/数据规模

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

微软亚洲研究院提出DELT新范式，通过优化训练数据的顺序，提升语言模型性能，无需增加数据量或模型规模。该方法强调数据组织的重要性，结合数据评分、选择和排序，显著提高模型训练效率和泛化能力。

🎯

🔎

DELT范式强调数据的出场顺序对模型训练效果的影响，类似于教学中的课程安排。合理的顺序可以帮助模型更好地理解和学习，从而提升性能。这一方法为AI训练提供了新的视角，值得研究者关注。

折叠排序方法通过多层次的折叠策略，避免了模型的过度遗忘和数据分布偏差。这种方法不仅保留了数据的难度排序优势，还提升了模型的鲁棒性和泛化能力，显示出在训练过程中对数据组织的深刻理解。

数据效能（Data Efficacy）与数据效率（Data Efficiency）有本质区别。前者关注数据的组织和排序，后者则侧重于数据的选择。理解这两者的不同，有助于更好地应用DELT范式，提升模型的整体表现。

❓

DELT范式集成了数据评分、数据选择和数据排序三大核心组件。

DELT范式通过优化训练数据的组织顺序，结合数据评分和选择，显著提升模型训练效率和泛化能力。

数据效能是指通过优化训练数据的组织方式来最大化语言模型的性能表现，而无需改变数据内容或模型架构。

折叠排序方法通过多层折叠提升数据效能，避免模型过度遗忘，同时保持数据的均衡分布。

DELT范式强调训练样本的组织顺序，通过合理安排数据的呈现顺序来提升模型的学习效果。

DELT范式在不同模型尺寸和数据规模下均显著提升了模型性能，适用于多领域任务。

🏷️