💡
原文中文,约7500字,阅读约需18分钟。
📝
内容提要
近期研究提出结合经典编解码器(如JPEG、AVC/H.264)与自回归大语言模型(LLM)进行图像和视频生成。通过直接输出压缩文件字节,JPEG-LM和AVC-LM在生成质量上优于传统方法,尤其在复杂视觉元素上表现突出。这种方法简化了训练过程,展示了LLM在视觉生成中的潜力。实验显示,该方法在生成逼真图像和视频方面具有显著优势。
🎯
关键要点
- 研究结合经典编解码器与自回归大语言模型进行图像和视频生成。
- JPEG-LM和AVC-LM在生成质量上优于传统方法,尤其在复杂视觉元素上表现突出。
- 该方法简化了训练过程,展示了LLM在视觉生成中的潜力。
- 通过直接输出压缩文件字节,JPEG-LM在生成长尾视觉元素方面具有特别优势。
- 使用经典编解码器(JPEG和AVC/H.264)作为非神经的预处理器来离散化数据。
- JPEG-LM和AVC-LM能够生成256×256的图像和15帧的256×144视频。
- JPEG-LM在生成质量上超过了强大的VQ模型,平均FID减少31%。
- JPEG-LM在处理小尺寸的人脸和文本字符方面表现更佳。
- AVC-LM能够生成具有逼真运动的视频,展示了视频生成的潜力。
- 该研究展示了如何将常规LLM架构用作生成视觉内容的通用模型。
➡️