Micropaper ·

Vision-DeepResearch：首个长时序多模态深度研究模型，8B 参数干翻 GPT-5

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

Vision-DeepResearch是首个长时序多模态深度研究模型，拥有8B参数，超越了GPT-5等闭源模型。它支持多轮推理和多实体搜索，采用创新训练策略，展现了开源模型在智能信息检索和自动化研究助手中的潜力。

🎯

🔎

Vision-DeepResearch作为首个长时序多模态深度研究模型，展示了其在处理复杂任务时的优势。与传统模型相比，它能够进行数十轮推理和数百次搜索交互，真正模拟了人类研究员的思维过程。这一创新使得模型在智能信息检索和自动化研究助手的应用场景中具备了更强的实用性。

Vision-DeepResearch的开源特性为研究者和开发者提供了丰富的资源，包括代码、数据集和模型权重。这种开放的生态系统不仅促进了技术的快速迭代，也使得更多人能够参与到智能研究助手的构建中，降低了对大型闭源模型的依赖。

该模型采用冷启动监督训练和强化学习的双重训练策略，将深度研究能力内化为模型自身的能力。这种方法不仅提升了模型的推理能力，也为未来的多模态模型训练提供了新的思路，值得其他研究者借鉴。

❓

Vision-DeepResearch是首个长时序多模态深度研究模型，拥有8B参数，支持数十轮推理和数百次搜索引擎交互，超越了GPT-5等闭源模型。

该模型采用冷启动监督训练和强化学习训练的创新策略，将深度研究能力内化为模型自身能力。

在多个基准测试中，Vision-DeepResearch显著超越了现有的多模态深度研究模型，包括GPT-5、Gemini-2.5 Pro和Claude-4-Sonnet。

VDR-Bench是专门为评估多模态深度研究能力而发布的测试基准，支持多尺度、多实体的搜索评估。

该模型适用于多模态深度研究、智能信息检索和真实世界应用，如复杂决策支持和多源信息整合。

Vision-DeepResearch在推理轮次和搜索能力上具有更强的表现，能够处理复杂任务，超越了现有闭源模型。

🏷️