本文介绍了SlowFast网络在视频识别中的应用,通过结合Slow路径和Fast路径来提高识别精度。同时,研究了SpeedNet模型的自我监督学习、视频加速技术、视频生成模型的优化及Contextualized World Models的引入,显著提升了机器人操作和自动驾驶等领域的样本效率。此外,提出了VSTAR方法以改善长视频生成的动态性,并开发了新数据集LVD-2M以推动长视频生成研究。
本研究提出了一种名为Loong的新型自回归模型,通过将文本和视频标记统一建模,并采用渐进式训练方法,提升了生成长视频的能力。该模型能从10秒视频扩展生成符合文本提示的长视频,具有创新性和实用性。
完成下面两步后,将自动完成登录并继续当前操作。