量子位 ·

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

微软研究院与北大联合推出的Next-Frame Diffusion (NFD)框架，实现每秒超过30帧的高质量自回归视频生成。通过帧内并行采样和帧间自回归，NFD显著提升生成效率，支持实时交互，未来可能改变游戏体验。

🎯

关键要点

微软研究院与北大联合推出Next-Frame Diffusion (NFD)框架，支持每秒超过30帧的高质量自回归视频生成。
NFD通过帧内并行采样和帧间自回归显著提升生成效率，支持实时交互。
NFD在NVIDIA A100 GPU上生成视频的速度为每帧约0.48秒，生成质量保持高水平。
NFD采用帧内双向注意力和帧间因果注意力机制，利用扩散模型多步迭代生成连续Token。
研究人员通过一致性蒸馏和投机采样技术进一步提高生成效率，减少推理时的总采样次数。
NFD的架构包含Tokenizer和基于扩散的Transformer模型，支持高效建模时空依赖性。
NFD在生成效率和视觉质量上优于现有自回归模型，310M模型在FVD和PSNR指标上表现出色。
NFD+版本通过高效采样策略显著加速，保持竞争力的视觉质量。
团队认为视频生成模型在各个领域发展迅速，未来将实现更灵活、高效的生成范式。

❓

延伸问答

Next-Frame Diffusion (NFD)框架的主要功能是什么？

NFD框架实现每秒超过30帧的高质量自回归视频生成，支持实时交互。

NFD如何提高视频生成的效率？

NFD通过帧内并行采样和帧间自回归显著提升生成效率，采用双向注意力和因果注意力机制。

NFD在生成视频时的速度和质量如何？

在NVIDIA A100 GPU上，NFD生成视频的速度约为每帧0.48秒，且生成质量保持高水平。

NFD与现有自回归模型相比有什么优势？

NFD在生成效率和视觉质量上优于现有自回归模型，310M模型在FVD和PSNR指标上表现出色。

NFD的架构包含哪些关键组件？

NFD的架构包含Tokenizer和基于扩散的Transformer模型，支持高效建模时空依赖性。

未来NFD可能对游戏体验产生什么影响？

NFD可能改变游戏体验，使玩家能够直接与模型交互，而无需传统游戏引擎。

🏷️

继续阅读

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
2026年构建应用的顶级代理框架
2026年，人工智能领域迅速发展，代理框架成为现代应用架构的重要组成部分。Python开发者依赖LangChain、LangGraph和AutoGen等框...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA
百度发布的PaddleOCR-VL-1.6在OmniDocBench v1.6评测中准确率超过96.3%，综合性能全球第一，支持100多种语言，适应复杂文...
在视频时代，认真拍一张照片：OPPO Find X9 Ultra 影像漫谈
OPPO Find X9 Ultra手机强调光学摄影，结合哈苏影像哲学，追求真实色彩和明暗关系。其LUMO凝光引擎处理暗部细节，保留真实影调，新胶片风格和...
运营一个以人工智能为核心的工程组织
工程团队在使用Claude Code后，工作流程显著变化，传统规划被即时规划取代，强调原型和用户反馈。信息收集时优先询问Claude，代码审查中Claud...