MANGO:大型语言模型映射和导航能力评估基准
发表于: 。提出了 MANGO 基准测试,用于评估大型语言模型在执行基于文本的映射和导航任务时的能力,结果表明即使是迄今为止最强的语言模型 GPT-4 在回答这些问题上表现不佳,而具备强大的映射和导航能力的语言模型对于执行相关下游任务(如玩文本游戏)将会有所好处。
提出了 MANGO 基准测试,用于评估大型语言模型在执行基于文本的映射和导航任务时的能力,结果表明即使是迄今为止最强的语言模型 GPT-4 在回答这些问题上表现不佳,而具备强大的映射和导航能力的语言模型对于执行相关下游任务(如玩文本游戏)将会有所好处。