该研究提出了“diffmotion-v2”模型,利用WavLM预训练模型生成个性化共说手势,简化多模态处理,提取音频信息并学习语音与手势的关系。
该研究提出了“diffmotion-v2”,利用WavLM预训练模型,通过语音生成个性化和风格化的全身手势,简化多模态处理和手动标注。模型在多个数据集上验证了生成自然手势的能力。
完成下面两步后,将自动完成登录并继续当前操作。