量子位 ·

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异，超越Gemini 3和GPT-5.1等国际顶尖模型，但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破，已开源不同版本并上线千问APP供用户体验。

🎯

关键要点

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在空间推理基准测试中表现优异，超越Gemini 3和GPT-5.1等国际顶尖模型。
SpatialBench是近年来兴起的第三方空间推理基准测试，主要测试多模态模型在空间、结构、路径等方面的综合推理能力。
Qwen3-VL和Qwen2.5-VL分别获得13.5和12.9分，领先于Gemini 3.0 Pro Preview（9.6）和GPT-5.1（7.5）。
目前AI大模型的整体表现距离人类基准线约80分仍有差距，无法完全自动化处理复杂空间推理任务。
Qwen2.5-VL预计于2024年开源，Qwen3-VL将在2025年开源。
Qwen3-VL在视觉感知和多模态推理方面实现重大突破，增强了3D检测能力，能够更好地感知空间。
Qwen3-VL已开源不同版本，包括多种密集模型和MoE模型，受到企业和开发者欢迎。
Qwen3-VL模型已上线千问APP，用户可免费体验。

🏷️

继续阅读

2.4万亿参数“最强文科生”，文心5.0正式版，你挺懂山东人啊？
文心5.0正式发布，参数达到2.4万亿，具备全模态能力，表现优异。其在文本和视觉理解方面多次夺冠，展现出强大的知识整合与创造力。通过原生全模态建模，提升了...
把医疗AI禁锢在严肃区间：百川M3 Plus首创“证据锚定”，幻觉率2.6%刷新全球纪录
百川M3 Plus医疗AI模型通过“证据锚定”技术将幻觉率降低至2.6%，刷新全球纪录，旨在提升医疗AI的可信度，辅助医生做出科学决策，并通过“海纳百川计...
为什么全球企业正在加速推进联络中心自动化?
企业通过联络中心自动化提升客户服务，利用AI技术提高响应速度和效率，满足客户期望。自动化系统处理常见问题，支持多渠道互动，提供个性化体验，并生成数据洞察以促进持续改进。
AI 论文周报丨Transformer前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展
北京大学与 DeepSeek-AI 的研究者提出 Engram，一种具有 O(1) 查找复杂度的可扩展条件记忆模块，通过将静态知识检索 Transform...
Casio teased a retro gaming-inspired sampler
Casio showed up to NAMM (CES for music gear nerds) this year with a prototype...
当前可购买的最佳即时相机
这篇文章介绍了几款最受欢迎的即时相机，包括富士、宝丽来和柯达等品牌。文章提到，选择即时相机时需要考虑照片质量、易用性、价格和适用性等因素。富士Instax...

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

内容提要

关键要点

标签

继续阅读