L3GO: 基于三维思维链的语言智能代理生成非常规物体
原文中文,约500字,阅读约需2分钟。发表于: 。通过 L3GO 模型,利用大型语言模型作为代理,使用 3D 仿真环境进行试错式组合,推理和生成 Diffusion-based 图像模型中难以处理的非传统对象的基于部件的 3D 网格生成。在 ShapeNet 和 UFO 基准上,我们的方法在人工和自动评估中表现优于标准 GPT-4 和其他语言代理。
研究人员提出了一种根植于三维世界的通用代理人LEO,通过训练和大规模数据集,LEO在感知、推理、规划和行动方面表现出色。实验证明LEO在三维字幕、问题解答、推理、导航和机器人操作等任务中具有出色能力。