火星:开放世界环境中的情境归纳推理
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了大型语言模型在特定环境中归纳新知识和进行推理的挑战。我们设计了名为“火星”的交互环境,利用对抗常识的游戏机制,促进智能体从历史轨迹进行归纳推理。实验结果表明,归纳推理在火星环境中至关重要,推动了智能系统在适应性和语境敏感推理方面的发展。
为了提升大型语言模型的推理能力,研究提出了一种新方法,称为MetAphysical ReaSoning。这种方法将推理视为三步骤的判别过程,并引入MARS基准测试来评估模型在推理变化方面的能力。评估显示,即使是最先进的模型也面临挑战,分析指出预训练可能在大规模概念分类中增强推理能力。