利用语音进行多模式通信中的手势检测
原文中文,约400字,阅读约需1分钟。发表于: 。通过使用 Transformer 编码器对语音和骨架序列进行交叉模态和早期融合技术,本研究在协同语音手势检测方面取得了显著的性能提升,并发现模型的手势预测置信度与与手势相关的语音频率特征存在相关性。
通过LivelySpeaker框架实现了语义感知的共同语言手势生成,方法分为基于脚本的手势生成和基于音频引导的节奏细化两个阶段。实验证明该框架相对竞争方法具有优势。
通过使用 Transformer 编码器对语音和骨架序列进行交叉模态和早期融合技术,本研究在协同语音手势检测方面取得了显著的性能提升,并发现模型的手势预测置信度与与手势相关的语音频率特征存在相关性。
通过LivelySpeaker框架实现了语义感知的共同语言手势生成,方法分为基于脚本的手势生成和基于音频引导的节奏细化两个阶段。实验证明该框架相对竞争方法具有优势。