学习用于多模式失语类型检测的共言手势
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种基于语音和相应的手势模式的多模态图神经网络,用于检测失语症类型,通过学习每种失语症类型中语音和手势模态之间的相关性,我们的模型能够生成对手势信息敏感的文本表示,实现了准确的失语症类型检测,实验证明了我们方法的优越性 (达到了 84.2% 的 F1 值),我们还展示了手势特征优于声学特征,凸显了手势表达在检测失语症类型中的重要性。
该文介绍了一种基于 LivelySpeaker 框架的语义感知的共同语言手势生成方法,分为基于脚本的手势生成和基于音频引导的节奏细化两个阶段。该方法利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势,并通过基于扩散的手势生成骨干将脚本引导的手势与音频信号相结合。