本研究探讨了视觉自回归模型在推理过程中的高内存开销,首次形式化定义了KV缓存压缩问题,并证明在特定条件下,基于注意力架构的生成机制至少需要$(n^2 d)$的内存,揭示了实现次平方级内存使用的不可行性,为未来的内存优化提供了理论依据。
本研究解决了视觉自回归模型在图像生成中的计算效率问题,提出了实现亚二次时间复杂度的条件,并通过低秩近似验证了理论,为提升VAR模型效率提供了依据。
完成下面两步后,将自动完成登录并继续当前操作。