小红花·文摘

本文提出了一种增强 VQ-VAE 结构的频率补全模块和动态频谱损失，用于平衡频率以获得最佳重建。FA-VAE 进一步扩展到文本到图像合成任务中，并提出了交叉注意力自回归变换器以获得更精确的文本语义属性。实验结果表明，FA-VAE 能够更忠实地恢复细节，CAT 在图像文本语义对齐方面也显示出更好的生成质量。