本研究提出FLARE方法,旨在解决机器人助手在自然语言指令下进行复杂任务规划时的标注需求问题。该方法结合语言指令与环境感知,生成合理计划,并通过视觉提示修正模糊指令,从而显著提升任务规划效果。
本文介绍了一种多模态方法,通过音频和视觉信息提升厨房环境中的动作识别性能,动词分类上实现了5.18%的改进。同时,提出了自我中心视频-语言预训练方法和高效闭环视频模型训练方法,展示了在不同任务中的优异表现,为构建高效的视觉-语言模型和机器人助手奠定了基础。
完成下面两步后,将自动完成登录并继续当前操作。