商汤开源 SenseNova-MARS,突破多模态搜索推理天花板

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

商汤开源的SenseNova-MARS模型在多模态搜索与推理中表现优异,得分69.74,超越Gemini-3-Pro和GPT-5.2。该模型支持动态视觉推理和图文搜索,具备自主规划和高效工具调用能力,推动AI实际应用。

🎯

关键要点

  • 商汤开源的SenseNova-MARS模型在多模态搜索与推理中得分69.74,超越Gemini-3-Pro和GPT-5.2。

  • SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的Agentic VLM模型,具备自主规划和工具调用能力。

  • 在多个基准测试中,SenseNova-MARS取得SOTA成绩,全面领先于顶级闭源模型。

  • 模型在MMSearch和HR-MMSearch等评测中表现优异,尤其在细粒度视觉分析方面。

  • SenseNova-MARS能够解决复杂的多步骤推理和多工具协作问题,提升工作效率。

  • 模型采用因材施教的训练方法,通过自动化数据合成和强化学习来提升能力。

  • 商汤全开源SenseNova-MARS模型、代码和数据集,支持Hugging Face下载。

🔎

延伸解读

多模态推理的突破

SenseNova-MARS模型在多模态搜索与推理领域的表现,标志着技术的重大进步。其动态视觉推理和图文搜索的深度融合,使得AI在处理复杂任务时更具灵活性和效率。这一突破不仅提升了模型的实用性,也为未来的AI应用提供了新的可能性。

自主规划与工具调用的优势

SenseNova-MARS具备自主规划和多工具调用的能力,能够高效解决复杂的多步骤推理问题。这种能力使得AI在实际应用中能够更好地应对真实场景中的挑战,提升工作效率,尤其是在需要细致分析和信息检索的任务中。

开源的意义与影响

商汤将SenseNova-MARS全开源,意味着更多开发者和行业用户可以参与到模型的测试与应用中。这种开放性不仅促进了技术的共享与创新,也为AI领域的进一步发展提供了良好的基础,推动了多模态技术的普及。

延伸问答

SenseNova-MARS模型的主要特点是什么?

SenseNova-MARS模型支持动态视觉推理和图文搜索深度融合,具备自主规划和工具调用能力。

SenseNova-MARS在多模态搜索中的表现如何?

SenseNova-MARS在多模态搜索与推理的基准测试中得分69.74,超越Gemini-3-Pro和GPT-5.2,表现优异。

SenseNova-MARS如何解决复杂的多步骤推理问题?

SenseNova-MARS能够自主调用多种工具,完成复杂的多步骤推理任务,如识别细节、查询信息等。

SenseNova-MARS的训练方法是什么?

SenseNova-MARS采用因材施教的训练方法,通过自动化数据合成和强化学习来提升能力。

SenseNova-MARS在图文搜索评测中的得分如何?

在MMSearch评测中,SenseNova-MARS以74.27分登顶,显著超越GPT-5.2的66.08分。

如何获取SenseNova-MARS模型及其代码?

SenseNova-MARS模型、代码和数据集全开源,支持在Hugging Face上下载。

🏷️

标签

➡️

继续阅读