斯坦福大学李飞飞团队推出了首个空间智能模型,能够通过单张图片生成3D世界。国内智源研究院的See3D模型则利用无标注互联网视频生成3D图像,支持多种生成和编辑任务,展现出广泛的应用潜力。
本研究提出了一种新方法PVDR,利用无标注视频数据进行强化学习预训练。通过视频预测任务,基于Transformer的CVAE学习视觉动态表示,从而提高政策学习效率。实验结果表明,PVDR显著改善了视频预训练效果。
完成下面两步后,将自动完成登录并继续当前操作。