CODA:将连续变分自编码器用于离散标记化
📝
内容提要
本研究针对传统离散视觉标记器在压缩和离散化过程中面临的训练不稳定和重建质量不佳的问题,提出了CODA框架,通过解耦压缩和离散化来自适应现有的连续变分自编码器,从而提高训练效率和重建质量。实验结果表明,CODA在训练预算上节省了六倍,且在ImageNet 256×256基准测试中实现了100%的代码本利用率和显著的重建FID值。
🏷️
标签
➡️