OpenAI的新模型o3在ARC-AGI基准测试中表现优异,最低准确率为75.7%,最高可达87.5%。尽管在多个任务上取得进展,但仍有34个任务未能解决,显示出与人类智能的差距,尤其在空间思维能力方面存在局限。
研究者们计划在2025年实现AI领域的突破,特别是在空间思维方面。他们提出了VSI-Bench,这是一个基于视频的基准测试,用于评估多模态大语言模型(MLLM)在视觉空间智能方面的表现。尽管与人类相比仍有差距,但模型展现出新兴的视觉空间智能。研究指出,空间推理是MLLM的主要瓶颈,未来的AI助手需要更好地理解和导航空间。
完成下面两步后,将自动完成登录并继续当前操作。