在空间任务上评估大型语言模型:多任务基准研究
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对当前大型语言模型在空间任务上的评估缺乏进行深入探讨,提出了一套新颖的多任务空间评估数据集,系统比较多种模型的性能。研究发现,gpt-4o在总体准确度上表现最佳,而不同的提示策略对模型在特定任务的表现有显著影响,如COT策略在路径规划任务中将gpt-4o的准确率提升至87.5%。
本研究改进了StepGame基准测试,提供了更准确的数据集用于模型评估,并分析了GPT在修正后的基准测试上的空间推理性能。研究发现GPT在将自然语言文本映射到空间关系方面表现出了优势,但在多跳推理方面存在局限性。通过改进模型和采用连续思考和思维树提示策略,取得了显著的准确性改善。研究提出了增强措施,为人工智能的空间推理能力的进展做出了贡献。