Apple Machine Learning Research ·

MixAtlas：面向多模态大模型中期训练的基于不确定性的数据混合优化

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

MixAtlas是一种用于多模态大模型中期训练的数据混合优化框架，通过领域分解和小型代理模型提高样本效率和下游泛化能力。它在图像概念和任务监督两个方面分解训练数据，显著提升训练效率，实现3倍的收敛速度和2-5%的性能提升，尤其在文本丰富的基准测试中表现突出。

🎯

🔎

MixAtlas通过领域分解和小型代理模型的结合，提供了一种新的数据混合优化方法。这种方法不仅提高了样本效率，还增强了模型在不同任务上的泛化能力，尤其适用于多模态大模型的中期训练。

MixAtlas在训练效率上实现了3倍的收敛速度和2-5%的性能提升，特别是在文本丰富的基准测试中表现突出。这意味着在实际应用中，使用MixAtlas可以显著缩短模型训练时间，同时提高模型的准确性。

通过使用小型代理模型和高斯过程代理，MixAtlas能够以1/100的成本探索混合空间。这种成本效益使得研究人员和开发者在进行大规模模型训练时，可以更灵活地调整数据混合策略，降低资源消耗。

❓

MixAtlas是一种用于多模态大模型中期训练的数据混合优化框架。

通过领域分解和小型代理模型，MixAtlas提高了样本效率和下游泛化能力。

MixAtlas实现了3倍的收敛速度和2-5%的性能提升。

在ChartQA和TextVQA上，MixAtlas分别提升了10%和13%。

MixAtlas使用小型代理模型和高斯过程代理，以1/100的成本探索混合空间。

通过小型代理模型获得的混合结果可以转移到大规模模型训练中，保持效率和准确性提升。

🏷️