刚拿下NeurIPS最佳论文,字节就开源VAR文生图版本,拿下SOTA击败扩散模型

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

字节开源的Infinity模型在图像生成方面超越了扩散模型,推理速度提升3至14倍,生成质量高且细节丰富。其核心创新是采用Bitwise Token自回归框架,扩展词表至无穷大,显著提升生成效果。Infinity在NeurIPS获奖后已开源,提供体验。

🎯

关键要点

  • 字节开源的Infinity模型在图像生成方面超越了扩散模型,推理速度提升3至14倍。
  • Infinity模型的核心创新是采用Bitwise Token自回归框架,扩展词表至无穷大,显著提升生成效果。
  • Infinity在NeurIPS获奖后已开源,提供体验网站。
  • Infinity生成的图像细节丰富,支持各种长宽比,解决了VAR不支持动态分辨率的问题。
  • Infinity在用户评测中以接近90%的beat rate击败了HART模型,且在多个扩散模型中表现优异。
  • Bitwise Token自回归框架通过细粒度建模提升了模型的高频表示,优化了生成效果。
  • Infinity的无穷大词表扩展了Tokenizer的表示空间,提升了高频细节的还原能力。
  • Infinity模型在不同规模下表现出良好的scaling特性,随着模型增大和训练资源增加,生成效果显著提升。
  • Infinity还提出了比特自我矫正技术,缓解了自回归推理时的累计误差问题。
  • Infinity的训练和推理代码、demo、模型权重已在GitHub上发布,用户可进行体验。
➡️

继续阅读