量子位 ·

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

抖音SAIL团队与LV-NUS Lab联合推出的SAIL-VL2多模态大模型在106个数据集上取得了显著突破，尤其在复杂推理任务中表现出色。该模型通过创新架构和数据处理，展现了小参数规模模型的强大能力，具备细粒度视觉感知和复杂推理能力，成为开源领域的领先者。

🎯

🔎

SAIL-VL2模型通过创新的稀疏混合专家架构，展示了小参数规模模型在复杂推理任务中的强大能力。这一突破为开发者提供了新的思路，表明在资源有限的情况下，依然可以实现高效的多模态理解，推动了小模型的应用前景。

SAIL-VL2在数据处理上采用了评分过滤和合成增强的方法，确保了多模态语料库的高质量。这一策略不仅提升了模型的训练效果，也为其他研究者提供了可借鉴的数据处理框架，强调了数据质量在模型性能中的关键作用。

SAIL-VL2的渐进式训练框架和动态学习率策略显著提升了模型的多维度能力。这种系统化的训练方法为未来的模型开发提供了参考，尤其是在处理复杂任务时，逐步优化的策略能够有效提高模型的适应性和准确性。

❓

SAIL-VL2模型通过数据、训练和架构三大维度的创新，展示了小参数规模模型的强大能力。

SAIL-VL2在MMMU、MathVista等复杂推理基准上超越同规模模型，表现出色。

SAIL-VL2采用稀疏混合专家（MoE）架构，平衡了性能与效率。

SAIL-VL2设计了三阶段训练流程，包括热身适应、细粒度对齐和世界知识注入。

SAIL-VL2-2B和SAIL-VL2-8B在多模态理解基准中表现突出，位列开源第一。

SAIL-VL2-Thinking在复杂推理能力上媲美大模型，表现卓越。

🏷️