机器之心 ·

R1-like Reinforcement Learning Applied to Visual Localization! Fully Open Source Vision-R1 Boosts Performance of Multimodal Models by 50%

💡 原文日文，约3600字，阅读约需9分钟。

📝

内容提要

中科院团队通过「预训练 + 监督微调」提升了图文大模型的指令跟随能力，结合高质量指令与类R1强化学习，显著增强了视觉定位能力。Qwen2.5-VL模型在复杂任务中的性能提升达50%。该方法已开源，有效解决了目标定位中的多项挑战，展现出良好的泛化性与通用能力。

🎯

❓

Vision-R1通过结合高质量指令与类R1强化学习，设计了基于视觉任务评价的奖励函数，显著增强了模型的细粒度视觉定位能力。

Qwen2.5-VL模型在复杂任务中的性能提升达50%。

Vision-R1有效解决了密集场景中的长序列预测错误、低召回率和目标定位精度不足等挑战。

奖励函数包括框优先的预测匹配、双重格式奖励、召回奖励和精度奖励。

Vision-R1方法的相关论文、模型及数据集代码均已开源。

在域外数据集上，Vision-R1方法取得了平均6%的性能提升，展现了良好的泛化性。

🏷️

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
Presentation: Platform Teams Enabling AI - MCP/Multi-Agentic Tools Across Linkedin
LinkedIn’s Karthik Ramgopal and Prince Valluri discuss leveraging AI as a new...
奥迪 R8 继任者发布！大 V8+千匹马力，走的却是复古风
奥迪将在2026年推出限量499台的混动超跑Nuvolari，搭载4.0升V8发动机，功率达1001马力，零百加速仅需2.6秒，售价约70万美元。该车设计...