全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

Mini-o3是字节与港大联合开发的开源视觉推理模型,支持多轮深度推理,突破传统模型限制。通过冷启动微调和强化学习,Mini-o3在视觉搜索任务中表现优异,显著超越现有模型,提供多样化推理模式。

🎯

关键要点

  • Mini-o3是字节与港大联合开发的开源视觉推理模型,支持多轮深度推理。
  • Mini-o3突破了传统模型的限制,能够在测试阶段扩展思考轮数至数十轮。
  • 模型通过冷启动微调和强化学习实现长周期视觉搜索能力,表现优异。
  • Mini-o3的设计包括构建视觉探测数据集VisualProbe、迭代式数据收集流程和超轮次掩码策略。
  • 训练分为两个阶段:冷启动监督微调和强化学习,旨在激活多轮工具使用能力。
  • 冷启动SFT通过上下文学习生成多轮推理轨迹,收集约6000条冷启动推理轨迹。
  • 强化学习阶段降低最大像素限制,提升可行交互轮次,加入超轮次掩码机制以避免惩罚超长响应。
  • VisualProbe数据集包含高难度视觉问答对,促进复杂推理轨迹的生成。
  • Mini-o3在多个视觉搜索基准测试中显著超越现有模型,展示出强劲性能。
  • 研究团队认为Mini-o3的技术方案为多轮交互式多模态模型的开发提供实用指导。
  • 相关代码已全部开源,研究团队包括6名成员,主要作者为赖昕和Junyi Li。
➡️

继续阅读