本文提出了一种增强 VQ-VAE 结构的频率补全模块和动态频谱损失,用于平衡频率以获得最佳重建。FA-VAE 进一步扩展到文本到图像合成任务中,并提出了交叉注意力自回归变换器以获得更精确的文本语义属性。实验结果表明,FA-VAE 能够更忠实地恢复细节,CAT 在图像文本语义对齐方面也显示出更好的生成质量。
完成下面两步后,将自动完成登录并继续当前操作。