刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。

🎯

关键要点

  • 刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero。

  • Vero支持多种视觉任务,克服了单一任务训练的局限性。

  • Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型。

  • Vero的训练数据集包含60万高质量样本,分为六类。

  • 任务路由奖励机制根据任务类型自动计算奖励,提升模型性能。

  • Vero通过单阶段强化学习激发基础模型的通用视觉推理能力。

  • 研究团队的消融实验表明,广泛的数据覆盖是视觉推理强化学习的主要驱动力。

  • Vero的所有数据、代码、模型均已开源,促进了学术界与工业界的合作。

延伸问答

Vero框架的主要功能是什么?

Vero框架支持多种视觉任务,克服了单一任务训练的局限性。

Vero是如何提升视觉推理模型性能的?

Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型。

Vero的数据集包含哪些类型的样本?

Vero的数据集包含六类样本:图表与OCR、STEM、空间与动作、知识与识别、定位、计数与搜索、描述与指令遵循。

任务路由奖励机制的作用是什么?

任务路由奖励机制根据任务类型自动计算奖励,提升模型在不同任务上的表现。

Vero框架的开源情况如何?

Vero的所有数据、代码、模型均已开源,促进了学术界与工业界的合作。

Vero在基准测试中的表现如何?

基于Vero训练的模型在30个基准测试中的23项上超越了经过专门微调的Qwen3-VL-8B-Thinking。

➡️

继续阅读