本研究提出了一种新方法,将大型视频模型与连续动作结合,解决了缺乏具身代理的问题。结果表明,该框架在无外部监督下能有效完成复杂任务,优于专家演示的行为克隆基线,具有重要应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。