小红花·文摘

VideoFlexTok：灵活长度的粗到细视频标记

Apple Machine Learning Research ·

5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队

量子位 ·

本文介绍了SlowFast网络在视频识别中的应用，通过结合Slow路径和Fast路径来提高识别精度。同时，研究了SpeedNet模型的自我监督学习、视频加速技术、视频生成模型的优化及Contextualized World Models的引入，显著提升了机器人操作和自动驾驶等领域的样本效率。此外，提出了VSTAR方法以改善长视频生成的动态性，并开发了新数据集LVD-2M以推动长视频生成研究。

SlowFast-VGen：面向动作驱动的长视频生成的慢速-快速学习

BriefGPT - AI 论文速递 ·

本研究提出了一种名为Loong的新型自回归模型，通过将文本和视频标记统一建模，并采用渐进式训练方法，提升了生成长视频的能力。该模型能从10秒视频扩展生成符合文本提示的长视频，具有创新性和实用性。

Loong：使用自回归语言模型生成分钟级长视频

BriefGPT - AI 论文速递 ·