机器之心 ·

GPT-4o举步维艰、Claude 3.7险胜，《超级马里奥》成为了检验大模型的新试金石？

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

AI研究者通过经典游戏《超级马里奥兄弟》测试模型智能，发现非推理模型在实时游戏中表现更佳。专家质疑当前AI评估标准，认为模型缺乏创造性思维，需关注提出新问题的能力。

🎯

关键要点

AI研究者通过经典游戏《超级马里奥兄弟》测试模型智能。
非推理模型在实时游戏中表现更佳，推理模型决策过程较慢。
GamingAgent项目为AI提供基本指令和游戏截图，考验模型的适应能力和解决问题的能力。
专家对当前AI评估标准提出质疑，认为模型缺乏创造性思维。
Hugging Face首席科学官担忧AI无法培养出具备创造性思维的系统。
AI的评估危机在于缺乏能够评估创造性思维的标准。
Wolf建议行业转向评估AI提出非显而易见问题的能力。

❓

延伸问答

《超级马里奥兄弟》如何用于测试AI模型的智能？

《超级马里奥兄弟》通过实时游戏环境考验AI的适应能力和解决问题的能力，特别是非推理模型在此类游戏中表现更佳。

为什么非推理模型在实时游戏中表现更好？

非推理模型的决策过程更快，能够在关键时刻迅速做出反应，而推理模型通常需要更长时间来确定行动。

专家对当前AI评估标准有何质疑？

专家认为当前的评估标准缺乏对创造性思维的关注，无法有效衡量AI提出新问题的能力。

Wolf对AI未来的担忧是什么？

Wolf担心当前的AI发展路径无法培养出具备创造性思维的系统，认为AI只是填补已有知识的空白。

GamingAgent项目的目的是什么？

GamingAgent项目旨在测试AI在实时动作游戏中的性能，提供基本指令和游戏截图以考验AI的适应能力。

如何评估AI的创造性思维能力？

Wolf建议行业应转向评估AI提出非显而易见问题的能力，以衡量其创造性思维。

🏷️

标签

AI claude gpt 创造性大模型智能游戏评估标准

➡️

继续阅读

PagerDuty的首席人工智能官表示，大多数AI事故工具缺少一个关键层面
AI正在帮助软件团队更快发布代码，但也导致了更频繁的事故。为应对这一挑战，需要建立一个AI生态系统，通过标准化信息交换加速事故管理。AI代理需访问相关数据...
architect-loop：把Claude当建筑师 GPT当工人仓库即记忆
architect-loop是一个协作框架，将AI模型分为建筑师（Claude Fable）和工人（GPT-5.5 Codex）。通过规格说明、验收标准和...
怎么用 AI 做内容运营？WordPress 官方现身说法，看他们如何狂揽百万流量！
WordPress通过AI和自动化技术提升内容运营效率，减少人工干预。利用自动抓取和AI改写，快速生成适合不同平台的文案，实现即时发布。同时，视频内容自动...
Claude Fable在一次编码测试中花费9美元，而GPT-5.5则花费1.50美元。模型筛选是新的AI技能。
文章讨论了人工智能（AI）模型的选择和使用策略，强调掌握AI技能的重要性。Anthropic公司因遵循美国政府的出口控制指令，暂时禁用了Fable 5和M...
Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践
当前AI的最大局限在于缺乏身体，无法与物理世界互动。openJiuwen社区推出Jiuwen Symbiosis架构，旨在赋予AI感知和行动能力，推动数字...
从华尔街到数据平台
本文讨论了Databricks全球金融服务市场领导者Kim Hatton的职业经历及其对市场与技术交汇的看法。她指出，金融机构在扩展AI时面临的主要挑战是...