本文介绍了一种生成建模框架RepTok,该框架通过自监督视觉变换器获取单一连续潜在标记来表示图像。该方法在预训练的SSL编码器基础上微调语义标记嵌入,并与生成解码器联合训练。通过添加余弦相似度损失,保持潜在空间的平滑性。RepTok在ImageNet生成和文本到图像合成中表现出色,展示了微调SSL表示作为有效潜在空间的潜力。
完成下面两步后,将自动完成登录并继续当前操作。