机器之心 ·

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

尽管DeepSeek-R1在单模态推理中表现出色，但在多模态应用中未能完全复现其特征。研究者提出了MM-Eureka模型，成功实现了回答长度的稳定增长和准确率的提升，并且数据效率高。经过54K图文数据的训练，MM-Eureka在多模态数学推理基准上超越了其他模型，展示了强化学习的潜力。

🎯

🔎

尽管已有多模态模型尝试复现DeepSeek-R1的特性，但大多数未能成功。MM-Eureka模型的提出，展示了在多模态环境中实现稳定的回答长度和准确率的可能性，表明在这一领域仍有巨大的研究潜力和应用前景。

MM-Eureka模型仅使用54K图文数据进行训练，却超越了使用1M数据的其他模型。这一发现强调了数据选择和过滤策略在强化学习中的关键作用，未来的研究可以进一步探索如何优化数据利用率，以提升模型性能。

MM-Eureka在强化学习训练中展现出类似DeepSeek-R1的aha-moment，表明模型能够有效反思和回溯。然而，课程学习和在线数据过滤的尝试未能显著提升性能，提示研究者在设计训练策略时需谨慎，避免过度依赖复杂方法。

❓

MM-Eureka模型在多模态推理中实现了回答长度的稳定增长和准确率的提升，且数据效率高，仅使用54K图文数据训练。

经过54K图文数据的训练，MM-Eureka在多模态数学推理基准上超越了其他模型，展示了强化学习的潜力。

数据选择对稳定的强化学习训练至关重要，基于难度的数据过滤策略有效提升训练稳定性。

MM-Eureka模型基于OpenRLHF开发，支持多种模型和强化学习算法。

MM-Eureka仅使用54K图文数据进行训练，性能超过使用1M数据的MPO模型，显示出极高的数据效率。

在训练过程中发现，极简的强化学习设计足以获得出色效果，且数据过滤策略对训练稳定性至关重要。

🏷️