SD-DiT:释放扩散变换器中自监督辨别的力量
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
DiffDis是一种将跨模态生成和辨别预训练统一到一个框架中的方法,通过融合噪声文本嵌入和不同尺度的潜在图像的知识,提出了一种新颖的双流网络架构来解决图像-文本辨别任务。实验结果表明,DiffDis在图像生成和图像-文本辨别任务上优于单一任务模型。
🎯
关键要点
- DiffDis是一种将跨模态生成和辨别预训练统一到一个框架中的方法。
- DiffDis通过融合噪声文本嵌入和不同尺度的潜在图像的知识,提出了一种新颖的双流网络架构。
- DiffDis旨在解决图像-文本辨别任务。
- 基于扩散的统一训练使DiffDis在生成能力和跨模态语义对齐上表现更好。
- 实验结果显示,DiffDis在图像生成和图像-文本辨别任务上优于单一任务模型。
- 在12个数据集上的零样本分类的平均准确性提高了1.65%。
- 在零样本图像合成的FID上提高了2.42个点。
➡️