机器之心 ·

关于计算机视觉中的自回归模型，这篇综述一网打尽了

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

AIxiv专栏发布了自回归模型在视觉领域的综述，涵盖图像、视频和3D生成等应用，分析了模型分类、性能比较及面临的挑战，为研究人员提供参考。

🎯

🔎

自回归模型在计算机视觉领域展现出广泛的应用潜力，涵盖图像生成、视频生成、3D生成和多模态生成等多个任务。这些模型能够有效处理复杂的视觉数据，推动相关技术的发展，尤其在生成高质量图像和视频方面表现突出。研究人员应关注这些模型在实际应用中的效果和适用场景，以便更好地利用其优势。

尽管自回归模型在视觉领域取得了一定进展，但仍面临计算复杂度、模式崩溃等挑战。设计有效的视觉分词器和适应多模态任务的能力是未来研究的重要方向。研究人员需要探索新的架构和算法，以提高模型的性能和适应性，从而推动自回归模型在实际应用中的广泛使用。

自回归模型与变分自编码器（VAEs）、生成对抗网络（GANs）等生成模型在性能和训练方式上存在显著差异。自回归模型通过似然训练保证生成图像的质量和多样性，而GANs则在生成速度上具有优势。理解这些模型之间的关系，有助于研究人员选择合适的模型以满足特定的应用需求。

❓

自回归模型在图像生成、视频生成、3D生成和多模态生成等任务中有广泛应用。

自回归模型的核心组成部分包括序列表示和自回归序列建模方法。

自回归模型面临的挑战包括计算复杂度、模式崩溃、视觉分词器设计和下游任务适应性。

自回归模型通过似然训练过程稳定，但采样速度慢；而生成对抗网络生成速度快，但训练不稳定且可能出现模式崩溃。

评估视觉自回归模型的性能需要考虑视觉质量、多样性、语义一致性和时间一致性等多个指标。

自回归模型根据序列表示策略分类为基于像素、基于视觉词元和基于尺度的模型。

🏷️