MDT-A2G: 探索用于共语手势生成的遮蔽扩散变压器
原文中文,约400字,阅读约需1分钟。发表于: 。该研究论文介绍了一种用于共语言手势生成的新型 Masked Diffusion Transformer 模型,该模型通过加强序列手势之间的时间关系学习,提高了上下文推理能力,实现了一致且逼真的动作生成,并整合了文本、情感和身份等多模态信息。实验结果表明,该模型在手势生成方面的学习速度比传统 diffusion transformers 快 6 倍以上,并且推理速度比标准 diffusion...
X-MDPT是一种新颖的扩散模型,用于生成姿势引导的人体图像。该模型在DeepFashion数据集上展示了可扩展性和高效性,具有更少的参数和更快的推理速度。