SD-DiT:释放扩散变换器中自监督辨别的力量

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

DiffDis是一种将跨模态生成和辨别预训练统一到一个框架中的方法,通过融合噪声文本嵌入和不同尺度的潜在图像的知识,提出了一种新颖的双流网络架构来解决图像-文本辨别任务。实验结果表明,DiffDis在图像生成和图像-文本辨别任务上优于单一任务模型。

🎯

关键要点

  • DiffDis是一种将跨模态生成和辨别预训练统一到一个框架中的方法。
  • DiffDis通过融合噪声文本嵌入和不同尺度的潜在图像的知识,提出了一种新颖的双流网络架构。
  • DiffDis旨在解决图像-文本辨别任务。
  • 基于扩散的统一训练使DiffDis在生成能力和跨模态语义对齐上表现更好。
  • 实验结果显示,DiffDis在图像生成和图像-文本辨别任务上优于单一任务模型。
  • 在12个数据集上的零样本分类的平均准确性提高了1.65%。
  • 在零样本图像合成的FID上提高了2.42个点。
➡️

继续阅读