BriefGPT - AI 论文速递 ·

ING-VP: Multimodal Large Language Models Still Cannot Play Simple Vision-based Games

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本研究提出了ING-VP基准，以评估多模态大语言模型在空间关系和多步骤推理方面的能力。评估结果显示，表现最佳的模型Claude-3.5 Sonnet的平均准确率仅为3.37%，揭示了当前模型在复杂空间推理中的局限性。

🎯

🏷️

Get Borderlands 3, Risk of Rain 2 and 13 other great PC games for $15
The aptly-named “2K Megahits 2026 Bundle” from Humble includes 15 Steam games...
Safety and alignment in an era of long-horizon models
OpenAI shares lessons from deploying long-running AI models, highlighting new...
Language model harnesses are compositional generalizers
Harnesses can lead to compositional generalization: we observe a property in ...
XZ 后门这件事，最该记住的不是 0.5 秒
XZ Utils 后门再次提醒我们，供应链安全不只是一套扫描工具能解决的问题。真正容易被忽略的，是维护者压力、构建链路、发布包和线上异常之间那些不起眼的缝。
华为韬定律干翻NVL72？五千芯片组网性能炸裂，AI集群不再看单颗算力
五千块芯片干翻英伟达？华为的AI数据中心正在改写物理规则。华为用落后两代的制造工艺，硬是靠系统级设计把AI集群性能拉到了超算天花板。当英伟达还在铜线传输...
1年2664人实锤：多吃亚精胺，肝脏脂肪指数直降9个点，腰围缩3.7cm
吃火锅时往红油里猛涮三盘毛肚的老铁们注意了，你们每天吞下去的那点亚精胺，可能比你们家楼下药店卖的护肝片还狠，你敢信？这篇刚砸在《欧洲营养学杂志》上的研究...