13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
浙大与上海AI Lab提出的邻近自回归建模(NAR)通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升,减少了生成步骤,特别在高分辨率图像和视频生成中表现出优势。
🎯
关键要点
- 浙大与上海AI Lab提出邻近自回归建模(NAR),显著提升视觉生成效率和质量。
- NAR模型通过'下一个邻域预测'机制,减少生成步骤,特别在高分辨率图像和视频生成中表现出优势。
- NAR模型在多个任务中实现了13.8倍的吞吐量提升,生成速度大幅提高。
- 传统自回归模型面临效率瓶颈,生成高分辨率图像或长视频时需要大量前向计算。
- NAR模型引入维度导向的解码头,允许并行生成多个相邻token,减少计算步骤。
- 在ImageNet数据集上,NAR-L模型生成质量优于LlamaGen-XXL,且生成步数减少87.8%。
- 在UCF-101数据集上,NAR模型生成步骤减少97.3%,确保视频帧之间的连贯性。
- NAR模型在文本到图像生成中,使用更少的训练数据获得更高的综合得分。
- NAR模型为视觉生成任务提供高效且高质量的解决方案,未来有望在AI应用中发挥重要作用。
➡️