ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

最近的研究提出了一种新的手势合成方法ConvoFusion,可以生成与语义对齐的手势。该方法通过关注特定词语来进行控制,并发布了DnD Group Gesture数据集来进一步推进多方互动手势的研究。实验结果表明,使用词级引导机制可以增强生成手势的语义一致性。

🎯

关键要点

  • 手势在人类交流中起着关键作用。
  • 现有的共语手势生成方法在生成与话语语义对齐的手势方面存在困难。
  • ConvoFusion是一种新的可控手势合成方法,能够生成与语义对齐的手势。
  • 该方法通过关注特定词语来控制手势生成,并支持多模态输入。
  • DnD Group Gesture数据集包含6小时的手势数据,展示了多方互动手势。
  • ConvoFusion的模型设计具有时间感知功能,能够学习运动和语音之间的时间关联。
  • 模型支持单人和双人设置的手势生成,能够与对话内容相关联。
  • 引入词级引导机制,增强生成手势的语义一致性。
  • 实验结果表明,使用词级引导机制可以提高手势生成的语义一致性。
➡️

继续阅读