DiffDis是一种将跨模态生成和辨别预训练统一到一个框架中的方法,通过融合噪声文本嵌入和不同尺度的潜在图像的知识,提出了一种新颖的双流网络架构来解决图像-文本辨别任务。实验结果表明,DiffDis在图像生成和图像-文本辨别任务上优于单一任务模型。
研究人员提出了DiffDis,一种将跨模态生成和辨别预训练统一到一个框架中的方法。DiffDis通过融合噪声文本嵌入和不同尺度的潜在图像知识,提出了一种新颖的双流网络架构,用于解决图像-文本辨别任务。实验结果表明,DiffDis在图像生成和图像-文本辨别任务上优于单一任务模型。
完成下面两步后,将自动完成登录并继续当前操作。