本研究探讨了视觉智能代理的建模任务,提出了DECADE数据集以模拟狗的视觉输入和行为规划。研究还介绍了自监督学习、半监督模仿学习及扩散模型在行为分析中的应用,展示了如何通过预训练模型提升智能体的行为水平。此外,开发了Interactive VideoGPT框架,整合多模态信号以实现交互式体验,推动生成视频模型与强化学习的结合。
完成下面两步后,将自动完成登录并继续当前操作。