超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异,超越Gemini 3和GPT-5.1等国际顶尖模型,但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破,已开源不同版本并上线千问APP供用户体验。

🎯

关键要点

  • 阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在空间推理基准测试中表现优异,超越Gemini 3和GPT-5.1等国际顶尖模型。
  • SpatialBench是近年来兴起的第三方空间推理基准测试,主要测试多模态模型在空间、结构、路径等方面的综合推理能力。
  • Qwen3-VL和Qwen2.5-VL分别获得13.5和12.9分,领先于Gemini 3.0 Pro Preview(9.6)和GPT-5.1(7.5)。
  • 目前AI大模型的整体表现距离人类基准线约80分仍有差距,无法完全自动化处理复杂空间推理任务。
  • Qwen2.5-VL预计于2024年开源,Qwen3-VL将在2025年开源。
  • Qwen3-VL在视觉感知和多模态推理方面实现重大突破,增强了3D检测能力,能够更好地感知空间。
  • Qwen3-VL已开源不同版本,包括多种密集模型和MoE模型,受到企业和开发者欢迎。
  • Qwen3-VL模型已上线千问APP,用户可免费体验。
➡️

继续阅读