小红花·文摘

本研究提出了一种新的多粒度手势生成框架M3G，解决了基于音频生成全身人类手势时粒度固定的问题。M3G利用多粒度VQ-VAE技术，能够以不同时间粒度标记和重建运动模式，实验结果表明其在生成自然、富有表现力的全身手势方面优于现有方法。