量子位 ·

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

💡 原文中文，约7900字，阅读约需19分钟。

📝

内容提要

魔搭社区推出了支持多模态训练和评测的GRPO训练高效解决方案，通过优化采样效率和异步采样显著提升训练速度。SWIFT框架与LMDeploy推理引擎结合，增强整体性能，并在多个任务上取得良好效果。

🎯

🔎

GRPO训练面临训练速度低和集群配置复杂等问题。魔搭社区通过SWIFT框架优化了采样效率，采用多实例数据并行采样和异步采样技术，显著提升了训练速度。这些技术的应用使得在中小集群上进行GRPO训练变得更加高效，降低了资源的闲置时间。

SWIFT框架支持多模态GRPO训练，能够处理图文、视频和音频等多种输入。这种多模态能力使得模型在处理复杂任务时更具灵活性和适应性，能够在不同类型的数据上进行强化学习，提升模型的综合性能。

EvalScope框架为大模型提供了全面的评测能力，支持可视化评测结果。它不仅能评估推理性能，还关注模型的思考效率，帮助开发者优化模型在推理过程中的表现。这种评测能力对于提升模型的实际应用价值至关重要。

❓

GRPO训练的主要目标是提高训练的稳定性和可维护性。

SWIFT框架通过优化采样效率和采用异步采样技术显著提升GRPO训练速度。

LMDeploy推理框架显著提升了推理速度，支持多模态模型的推理加速。

多轮更新机制允许一次采样数据多次使用，从而提高训练效率并减少采样频率。

GRPO训练面临训练速度低、集群配置复杂等挑战。

EvalScope框架提供全面的大模型评测能力，并支持评测结果的可视化。

🏷️