量子位 ·

训练时间减半，性能不降反升！腾讯混元开源图像生成高效强化方案MixGRPO

Q: MixGRPO的训练时间减少了多少？

MixGRPO的训练时间减少近50%。

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

腾讯混元团队提出的MixGRPO框架结合了SDE与ODE采样，显著提升了图像生成的效率和性能，训练时间减少近50%。MixGRPO-Flash进一步将训练时间降低71%，在多个维度上优于DanceGRPO，推动了图像生成技术的发展。

🎯

关键要点

腾讯混元团队提出MixGRPO框架，结合SDE与ODE采样，提升图像生成效率和性能。
MixGRPO减少训练时间近50%，MixGRPO-Flash进一步降低71%。
MixGRPO在多个维度上优于DanceGRPO，推动图像生成技术发展。
MixGRPO通过混合采样策略简化MDP中的优化流程，提升效率和性能。
MixGRPO采用滑动窗口策略优化去噪步骤，保证生成图像的多样性。
研究团队使用HPDv2数据集进行实验，MixGRPO在多个奖励模型下表现最佳。
MixGRPO解耦去噪阶段的优化与奖励计算，提升训练效率。
MixGRPO-Flash在开销与性能之间实现平衡，推动图像生成后训练领域的研究。

🔎

延伸解读

MixGRPO的创新之处

MixGRPO框架通过结合SDE与ODE采样，显著提升了图像生成的效率和性能。这种混合采样策略不仅简化了优化流程，还有效降低了训练时间，适应了当前对高效图像生成的需求。

训练时间与性能的权衡

MixGRPO-Flash在训练时间上进一步降低71%，但仍需关注加速可能带来的图像生成质量下降风险。研究团队强调，过度加速可能导致奖励计算中的误差积累，因此在实际应用中需谨慎选择加速策略。

滑动窗口策略的应用

MixGRPO采用滑动窗口策略优化去噪步骤，确保生成图像的多样性。这一策略的有效性在实验中得到了验证，尤其是在处理复杂的图像生成任务时，能够更好地平衡效率与效果。

❓

延伸问答

MixGRPO框架的主要创新点是什么？

MixGRPO框架结合了随机微分方程（SDE）和常微分方程（ODE）采样，提升了图像生成的效率和性能。

MixGRPO-Flash相比于MixGRPO有什么优势？

MixGRPO-Flash进一步将训练时间降低71%，在保持相近性能的同时显著提升了训练效率。

MixGRPO如何提高图像生成的效率？

MixGRPO通过混合采样策略简化了马尔可夫决策过程中的优化流程，从而提升了效率和性能。

MixGRPO在实验中使用了哪个数据集？

研究团队使用HPDv2数据集进行实验，该数据集包含多种风格的提示词。

MixGRPO的训练时间减少了多少？