量子位 ·

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero，支持多种视觉任务，克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制，在多项基准测试中超越现有模型，展示了广泛数据对视觉推理的促进作用。

🎯

关键要点

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero。
Vero支持多种视觉任务，克服了单一任务训练的局限性。
Vero通过600K高质量样本和任务路由奖励机制，在多项基准测试中超越现有模型。
Vero的训练数据集包含60万高质量样本，分为六类。
任务路由奖励机制根据任务类型自动计算奖励，提升模型性能。
Vero通过单阶段强化学习激发基础模型的通用视觉推理能力。
研究团队的消融实验表明，广泛的数据覆盖是视觉推理强化学习的主要驱动力。
Vero的所有数据、代码、模型均已开源，促进了学术界与工业界的合作。

❓

延伸问答

Vero框架的主要功能是什么？

Vero框架支持多种视觉任务，克服了单一任务训练的局限性。

Vero是如何提升视觉推理模型性能的？

Vero通过600K高质量样本和任务路由奖励机制，在多项基准测试中超越现有模型。

Vero的数据集包含哪些类型的样本？

Vero的数据集包含六类样本：图表与OCR、STEM、空间与动作、知识与识别、定位、计数与搜索、描述与指令遵循。

任务路由奖励机制的作用是什么？

任务路由奖励机制根据任务类型自动计算奖励，提升模型在不同任务上的表现。

Vero框架的开源情况如何？

Vero的所有数据、代码、模型均已开源，促进了学术界与工业界的合作。

Vero在基准测试中的表现如何？

基于Vero训练的模型在30个基准测试中的23项上超越了经过专门微调的Qwen3-VL-8B-Thinking。

🏷️

继续阅读

💥重磅：微软宣布重组Windows 11预览版金丝雀版和开发版合并为实验版
微软重组Windows Insider项目，将金丝雀版与开发版合并为实验频道，取消受控发布，所有用户可自行开启新功能。实验频道包含所有新特性，测试频道用于...
My Understanding of Python Metamodels - Artech
文章介绍了一个自定义元类Meta，重写了__new__和__init__方法，并在Bar类中应用该元类，通过打印调试信息展示类的创建过程。
早报｜「龙虾之父」Claude账号被封又解封/华为Pura 90定档4月20日/AI能力将成教师「必考项」
阿里巴巴推出视频生成模型「欢乐马」，表现优异。OpenAI CEO奥特曼住所遭袭，警方已逮捕嫌疑人。教育部将AI纳入教师资格考试，推动智能教育。亿咖通科技...
Go Command 工作组成立：这几个用了十年的命令可能要被废！
Go语言核心团队成立了“Go Command工作组”，旨在清理历史遗留命令，主要提案包括废弃“go list …”和GO111MODULE=auto，以及...
The Truth About Container Network Performance: veth vs macvlan vs eBPF Data Plane
容器A和容器B通过物理网卡以混杂模式连接，分别拥有不同的MAC地址（AA和BB），主机的MAC地址为CC。
2026 04 11 HackerNews
电子前沿基金会（EFF）宣布退出社交平台X，因其影响力下降且未能满足内容审核透明的要求。EFF将继续在其他平台上维护数字权利，强调适应平台变化的重要性。