MARS:用多任务评估数据集评估语言模型的形而上学推理能力

📝

内容提要

为了使大型语言模型(LLMs)能够成为具有可推广的推理能力的有意识的代理人,关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化(转换)的推理能力。我们提出了一种新颖的推理形式,称为 MetAphysical ReaSoning,它将分布变化的推理视为一个三步骤的判别过程,并引入了首个基准测试 MARS 来评估 LLMs...

➡️

继续阅读