小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了视觉自回归（VAR）变换器的基本极限，表明单头VAR变换器在图像生成方面具有通用性，并提出了提高模型效用的重要设计原则。VAR变换器在图像生成中表现优异，超越了以往所有方法。

Universal Approximation of Visual Autoregressive Transformers

BriefGPT - AI 论文速递 ·

本研究探讨了视觉自回归(VAR)模型的表现能力及其容量限制，提出新的电路复杂性界限，表明VAR模型可被均匀的$ ext{TC}^0$阈值电路模拟，强调其表现力的局限性，为未来模型架构开发提供指导。

Circuit Complexity Bounds of Visual Autoregressive Models

BriefGPT - AI 论文速递 ·

谷歌与MIT何恺明团队提出Fluid模型，通过连续token和随机生成顺序提升视觉自回归模型的效率。该模型在MS-COCO和GenEval测试中表现优异，展示了良好的可扩展性和视觉大模型的潜力。

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效扩展

量子位 ·