ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

最近的研究提出了一种新的手势合成方法ConvoFusion,可以生成与语义对齐的手势。该方法通过关注特定词语来进行控制,并发布了DnD Group Gesture数据集来进一步推进多方互动手势的研究。实验结果表明,使用词级引导机制可以增强生成手势的语义一致性。

🎯

关键要点

  • 手势在人类交流中起着关键作用。

  • 现有的共语手势生成方法在生成与话语语义对齐的手势方面存在困难。

  • ConvoFusion是一种新的可控手势合成方法,能够生成与语义对齐的手势。

  • 该方法通过关注特定词语来控制手势生成,并支持多模态输入。

  • DnD Group Gesture数据集包含6小时的手势数据,展示了多方互动手势。

  • ConvoFusion的模型设计具有时间感知功能,能够学习运动和语音之间的时间关联。

  • 模型支持单人和双人设置的手势生成,能够与对话内容相关联。

  • 引入词级引导机制,增强生成手势的语义一致性。

  • 实验结果表明,使用词级引导机制可以提高手势生成的语义一致性。

延伸问答

ConvoFusion是什么?

ConvoFusion是一种新的可控手势合成方法,能够生成与语义对齐的手势,支持多模态输入。

DnD Group Gesture数据集的内容是什么?

DnD Group Gesture数据集包含6小时的手势数据,展示了五名参与者在多场DND游戏中的互动手势。

ConvoFusion如何增强手势的语义一致性?

ConvoFusion通过引入词级引导机制,允许用户根据特定词语调节手势生成,从而增强语义一致性。

ConvoFusion支持哪些手势生成设置?

ConvoFusion支持单人和双人设置的手势生成,能够与对话内容相关联。

ConvoFusion的模型设计有什么特点?

ConvoFusion的模型设计具有时间感知功能,能够学习运动和语音之间的时间关联。

ConvoFusion与现有手势生成方法相比有什么优势?

ConvoFusion能够生成与语义对齐的手势,克服了现有方法在语言控制方面的不足。

🏷️

标签

➡️

继续阅读