小红花·文摘

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

机器之心 ·

本文介绍了多种图像生成模型的进展，包括MaskGIT、AutoNAT和现代化的VQGAN。研究表明，基于标记预测的方法在效率和图像质量上具有优势，尤其在高分辨率图像生成中表现突出。这些模型在ImageNet数据集上取得了优异的结果，推动了图像生成领域的创新。

ENAT：重新思考基于令牌的图像合成中的时空交互

BriefGPT - AI 论文速递 ·

本研究提出了2S-ODIS方法，通过几何失真校正解决全方向图像合成中的训练不稳定性和时间消耗问题。该方法利用预训练的VQGAN模型，显著缩短训练时间，从14天减少至4天，同时提高图像质量，具有重要应用潜力。

2S-ODIS: Two-Stage Omni-Directional Image Synthesis via Geometric Distortion Correction

BriefGPT - AI 论文速递 ·

本文介绍了基于向量量化（VQ）和预训练模型的图像生成与表示学习方法，如VQGAN、FSQ和SCQ等。这些方法在图像分类、语义分割和生成性能上优于传统技术，特别是通过语义神经离散表示学习和语言引导的码书学习框架，显著提升了多模态任务的效果。

SGC-VQGAN：通过语义引导聚类词典实现复杂场景表示

BriefGPT - AI 论文速递 ·

本文介绍了一种基于向量量化的图像压缩编码框架，利用VQGAN模型实现高效压缩和优质重构。同时，提出了语言引导的码书学习框架（LG-VQ），以提高多模态任务的性能。研究表明，低秩码簿量化方法（LCQ）在不增加存储成本的情况下，能提升大型语言模型的准确性。此外，提出的多级生成语义通信系统和鲁棒生成模型（RVQ-VAE）在处理异常值和生成特征恢复方面表现优异。

将 VQGAN 的码本大小扩展至 100,000，利用率为 99%

BriefGPT - AI 论文速递 ·

该研究使用Transformer模型架构，将自我关注机制限制在局部邻域，提高了模型处理大图像的能力，并在图像生成方面表现优异。此外，该研究还进行了图像超分辨率实验，发现其生成的图像比之前的最优模型更能欺骗人类观察者。

Efficient-VQGAN: 高分辨率图像生成的高效视觉 Transformer

BriefGPT - AI 论文速递 ·