Transcrib3D:通过大型语言模型解决 3D 指示表达
原文中文,约500字,阅读约需2分钟。发表于: 。如果机器人要与人类有效地共同工作,它们必须能够解释其 3D 环境中的物体的自然语言指示。Transcrib3D 是一种结合了 3D 检测方法和大型语言模型(LLMs)新兴推理能力的方法,通过使用文本作为统一介质,绕过了学习连接多模态输入的共享表示所需的大量注释 3D 数据的需求。通过在 3D 参考解析基准上取得最先进的结果,Transcrib3D...
Transcrib3D是一种结合了3D检测和大型语言模型的方法,能够解释机器人在3D环境中的物体的自然语言指示。该方法通过使用文本作为统一介质,避免了需要大量注释3D数据的学习连接多模态输入的共享表示的需求。它在3D参考解析基准上取得了最先进的结果,并通过自我校正方法进行微调,使得性能接近于大模型的性能。该方法使真实的机器人能够在具有挑战性的指代表达的查询下进行拾取和放置任务。