小红花·文摘

本研究探讨了视觉智能代理的建模任务，提出了DECADE数据集以模拟狗的视觉输入和行为规划。研究还介绍了自监督学习、半监督模仿学习及扩散模型在行为分析中的应用，展示了如何通过预训练模型提升智能体的行为水平。此外，开发了Interactive VideoGPT框架，整合多模态信号以实现交互式体验，推动生成视频模型与强化学习的结合。