自我中心视觉语言规划
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了大型多模态模型(LMMs)在物理世界中的基础性连接问题,提出了一种新颖的方法,即自我中心视觉语言规划(EgoPlan),以应对不同家庭场景中的长期任务。该模型利用扩散模型模拟状态与动作之间的动态关系,实验结果表明,EgoPlan显著提高了从自我中心视角看待任务的成功率。
介绍了Scene-LLM,一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型。该模型整合了大型语言模型(LLM)的推理能力,采用混合的3D视觉特征表示方法,并支持场景状态更新。通过实验证明了Scene-LLM在密集字幕生成、问题回答和交互规划方面的强大能力。