突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力

💡 原文中文,约6400字,阅读约需16分钟。
📝

内容提要

中科院、清华大学与快手联合提出R1-Reward模型,通过强化学习提升多模态奖励模型的长期推理能力。新算法StableReinforce解决了训练不稳定的问题,显著提升了模型性能,实验结果在多个基准上超越了现有最佳模型。

🎯

关键要点

  • 中科院、清华大学与快手联合提出R1-Reward模型,旨在提升多模态奖励模型的长期推理能力。
  • 新算法StableReinforce解决了训练不稳定的问题,显著提升了模型性能。
  • R1-Reward模型在多个基准上超越了现有最佳模型,提升幅度为5%-15%。
  • 研究团队将训练奖励模型视为基于规则的强化学习任务,通过学习判断答案优劣。
  • StableReinforce算法优化了损失函数和优势值处理,设计了一致性奖励机制。
  • 采用渐进式训练策略,先用GPT-4o生成思考过程,再进行强化学习训练。
  • 实验结果显示R1-Reward在多模态奖励模型测评基准上表现优异,准确率显著提高。
  • 通过多次推理计算,R1-Reward的性能进一步提升,显示出强化学习的潜力。
  • 现有强化学习方法在训练奖励模型时存在不稳定性,StableReinforce提升了训练稳定性。
  • R1-Reward模型展示了自我检查和纠错能力,推理效率提高,输出内容更简洁。
  • 未来研究可探索更先进的推理扩展方法和改进训练策略,以进一步提升模型性能。
➡️

继续阅读