全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
💡
原文中文,约3600字,阅读约需9分钟。
📝
内容提要
Mini-o3是字节与港大联合开发的开源视觉推理模型,支持多轮深度推理,突破传统模型限制。通过冷启动微调和强化学习,Mini-o3在视觉搜索任务中表现优异,显著超越现有模型,提供多样化推理模式。
🎯
关键要点
- Mini-o3是字节与港大联合开发的开源视觉推理模型,支持多轮深度推理。
- Mini-o3突破了传统模型的限制,能够在测试阶段扩展思考轮数至数十轮。
- 模型通过冷启动微调和强化学习实现长周期视觉搜索能力,表现优异。
- Mini-o3的设计包括构建视觉探测数据集VisualProbe、迭代式数据收集流程和超轮次掩码策略。
- 训练分为两个阶段:冷启动监督微调和强化学习,旨在激活多轮工具使用能力。
- 冷启动SFT通过上下文学习生成多轮推理轨迹,收集约6000条冷启动推理轨迹。
- 强化学习阶段降低最大像素限制,提升可行交互轮次,加入超轮次掩码机制以避免惩罚超长响应。
- VisualProbe数据集包含高难度视觉问答对,促进复杂推理轨迹的生成。
- Mini-o3在多个视觉搜索基准测试中显著超越现有模型,展示出强劲性能。
- 研究团队认为Mini-o3的技术方案为多轮交互式多模态模型的开发提供实用指导。
- 相关代码已全部开源,研究团队包括6名成员,主要作者为赖昕和Junyi Li。
❓
延伸问答
Mini-o3模型的主要特点是什么?
Mini-o3是一个开源视觉推理模型,支持多轮深度推理,能够在测试阶段扩展思考轮数至数十轮,表现优异。
Mini-o3是如何突破传统模型的限制的?
Mini-o3通过冷启动微调和强化学习实现长周期视觉搜索能力,能够进行数十个步骤的深度推理。
VisualProbe数据集的作用是什么?
VisualProbe数据集包含高难度视觉问答对,促进复杂推理轨迹的生成,帮助模型处理探索性任务。
Mini-o3的训练过程分为哪两个阶段?
Mini-o3的训练过程分为冷启动监督微调和强化学习两个阶段,旨在激活多轮工具使用能力。
超轮次掩码策略的目的是什么?
超轮次掩码策略旨在避免对达到最大交互轮次的响应进行惩罚,从而平衡训练效率与测试时的扩展性。
Mini-o3在视觉搜索任务中的表现如何?
Mini-o3在多个视觉搜索基准测试中显著超越现有模型,展示出强劲性能。
➡️