R1-like Reinforcement Learning Applied to Visual Localization! Fully Open Source Vision-R1 Boosts Performance of Multimodal Models by 50%

R1-like Reinforcement Learning Applied to Visual Localization! Fully Open Source Vision-R1 Boosts Performance of Multimodal Models by 50%

💡 原文日文,约3600字,阅读约需9分钟。
📝

内容提要

中科院团队通过「预训练 + 监督微调」提升了图文大模型的指令跟随能力,结合高质量指令与类R1强化学习,显著增强了视觉定位能力。Qwen2.5-VL模型在复杂任务中的性能提升达50%。该方法已开源,有效解决了目标定位中的多项挑战,展现出良好的泛化性与通用能力。

🎯

关键要点

  • 中科院团队通过预训练和监督微调提升图文大模型的指令跟随能力。
  • 结合高质量指令与类R1强化学习,显著增强视觉定位能力。
  • Qwen2.5-VL模型在复杂任务中的性能提升达50%。
  • 该方法已开源,有效解决目标定位中的多项挑战。
  • 目标定位任务要求模型精准识别用户输入的目标并给出精确框。
  • 图文大模型在复杂场景中的视觉定位与目标检测能力仍有差距。
  • Vision-R1通过设计类R1的强化学习后训练框架,增强细粒度视觉定位能力。
  • 提出的奖励函数包括框优先的预测匹配、双重格式奖励、召回奖励和精度奖励。
  • 渐进式规则调整策略通过动态调整奖励计算规则实现持续性能提升。
  • 在COCO和ODINW-13数据集上,Vision-R1方法显著提升模型性能。
  • Vision-R1在域外数据集上取得平均6%的性能提升,展现良好的泛化性。
  • 模型在通用问答等任务上性能基本一致,几乎不损失通用能力。
  • 可视化结果显示,Vision-R1训练后模型能更好召回目标并提升定位精度。

延伸问答

Vision-R1方法如何提升图文大模型的视觉定位能力?

Vision-R1通过结合高质量指令与类R1强化学习,设计了基于视觉任务评价的奖励函数,显著增强了模型的细粒度视觉定位能力。

Qwen2.5-VL模型在复杂任务中的性能提升了多少?

Qwen2.5-VL模型在复杂任务中的性能提升达50%。

Vision-R1方法解决了哪些目标定位中的挑战?

Vision-R1有效解决了密集场景中的长序列预测错误、低召回率和目标定位精度不足等挑战。

Vision-R1的奖励函数包含哪些核心部分?

奖励函数包括框优先的预测匹配、双重格式奖励、召回奖励和精度奖励。

Vision-R1方法的开源情况如何?

Vision-R1方法的相关论文、模型及数据集代码均已开源。

Vision-R1在域外数据集上的表现如何?

在域外数据集上,Vision-R1方法取得了平均6%的性能提升,展现了良好的泛化性。

➡️

继续阅读