量子位 ·

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

Mini-o3是字节与港大联合开发的开源视觉推理模型，支持多轮深度推理，突破传统模型限制。通过冷启动微调和强化学习，Mini-o3在视觉搜索任务中表现优异，显著超越现有模型，提供多样化推理模式。

🎯

🔎

Mini-o3通过构建VisualProbe数据集和超轮次掩码策略，突破了传统视觉推理模型的局限。这些设计使得模型能够在复杂任务中进行多轮深度推理，显著提升了其在视觉搜索任务中的表现。读者应关注这些创新如何影响未来多模态模型的开发。

Mini-o3的训练分为冷启动监督微调和强化学习两个阶段。冷启动阶段为模型提供了多轮推理的基础能力，而强化学习则通过调整最大像素限制和引入超轮次掩码机制，优化了模型的交互能力。这一过程强调了训练阶段设计对模型性能的关键影响。

在多个视觉搜索基准测试中，Mini-o3的表现显著优于现有模型，尤其是在处理高难度任务时。研究团队通过消融实验验证了各个设计元素对性能的贡献，读者可以从中了解到不同训练策略和数据集对模型效果的直接影响。

❓

Mini-o3是一个开源视觉推理模型，支持多轮深度推理，能够在测试阶段扩展思考轮数至数十轮，表现优异。

Mini-o3通过冷启动微调和强化学习实现长周期视觉搜索能力，能够进行数十个步骤的深度推理。

VisualProbe数据集包含高难度视觉问答对，促进复杂推理轨迹的生成，帮助模型处理探索性任务。

Mini-o3的训练过程分为冷启动监督微调和强化学习两个阶段，旨在激活多轮工具使用能力。

超轮次掩码策略旨在避免对达到最大交互轮次的响应进行惩罚，从而平衡训练效率与测试时的扩展性。

Mini-o3在多个视觉搜索基准测试中显著超越现有模型，展示出强劲性能。

🏷️