MDT-A2G: 探索用于共语手势生成的遮蔽扩散变压器

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

X-MDPT是一种新颖的扩散模型,用于生成姿势引导的人体图像。该模型在DeepFashion数据集上展示了可扩展性和高效性,具有更少的参数和更快的推理速度。

🎯

关键要点

  • X-MDPT是一种新颖的扩散模型,用于姿势引导的人体图像生成。

  • 该模型采用基于掩模的扩散变换器,与常用的Unet结构不同。

  • X-MDPT包括三个关键模块:去噪扩散变换器、聚合网络和掩模交叉预测模块。

  • 在DeepFashion数据集上,X-MDPT展示了可扩展性和高效性,优于现有方法。

  • 该模型的33MB紧凑版本在FID为7.42时超过了使用11倍少参数的先前Unet潜在扩散方法(FID 8.07)。

  • 最佳模型相比像素级扩散使用了2/3的参数,并实现了5.43倍的更快推理。

➡️

继续阅读