R1-Zero在非SFT模型上的视觉推理“顿悟”

📝

内容提要

本研究解决了在多模态推理中复制复杂推理特征的挑战。通过在非SFT的2B模型上直接应用强化学习,我们成功实现了“顿悟”瞬间,并在CVBench上达到59.47%的准确率,较基线模型提高约30%。该工作的潜在影响在于为多模态推理的发展提供了新思路,同时揭示了传统方法的局限性。

➡️

继续阅读