基于《我的世界》建筑对话代理任务的 LLM 基准
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出将 Minecraft 构建任务调整为适用于评估 LLM 在空间导向任务中的能力并提供构建代理设计的基准,与之前的工作不同,我们尝试提供一个全面的综合性合成基准来测试构建代理在一系列包含常见建筑操作的不同任务上的性能,我们相信这种方法使我们能够探测不同代理的具体优势和劣势,并测试 LLM 在挑战性的空间推理和基于向量的数学领域的能力。
我们提出了一个新的方法来评估Minecraft构建代理的能力,并提供了一个全面的综合性合成基准来测试不同任务上的性能。这种方法可以帮助我们了解不同代理的优势和劣势,并测试LLM在挑战性的空间推理和数学领域的能力。