爸爸就是人工智能:打破规则超越基准
原文中文,约400字,阅读约需1分钟。发表于: 。人类通过遵循现有的规则和程序以及通过创造性的飞跃来解决问题。我们基于 Baba Is You 游戏开发了一个新的基准,其中代理商通过操纵环境中的物体和规则来达到指定的目标并赢得游戏。我们测试了三种最先进的多模式大型语言模型(OpenAI GPT-4o,Google Gemini-1.5-Pro 和 Gemini-1.5-Flash),发现它们在需要操作和组合游戏规则的泛化时存在严重的失败。
GAIA是智能助手的基准测试,对AI研究具有里程碑意义。GAIA提出了一系列真实世界问题,对大多数AI具有挑战性。研究表明,人类回答正确率为92%,而GPT-4仅为15%。GAIA的目标是让任务对人类更加困难。使用GAIA的方法,设计了466个问题,发布了其中300个问题的答案。