MDT-A2G: 探索用于共语手势生成的遮蔽扩散变压器
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
X-MDPT是一种新颖的扩散模型,用于生成姿势引导的人体图像。该模型在DeepFashion数据集上展示了可扩展性和高效性,具有更少的参数和更快的推理速度。
🎯
关键要点
-
X-MDPT是一种新颖的扩散模型,用于姿势引导的人体图像生成。
-
该模型采用基于掩模的扩散变换器,与常用的Unet结构不同。
-
X-MDPT包括三个关键模块:去噪扩散变换器、聚合网络和掩模交叉预测模块。
-
在DeepFashion数据集上,X-MDPT展示了可扩展性和高效性,优于现有方法。
-
该模型的33MB紧凑版本在FID为7.42时超过了使用11倍少参数的先前Unet潜在扩散方法(FID 8.07)。
-
最佳模型相比像素级扩散使用了2/3的参数,并实现了5.43倍的更快推理。
🏷️
标签
➡️