DiM-Gesture:自适应层归一化 Mamba-2 框架的共语手势生成
原文中文,约400字,阅读约需1分钟。发表于: 。利用 Mamba-based 架构和 Adaptive Layer Normalization 进行高度个性化的 3D 全身手势生成,以实现姿态和语音同步,优化内存使用和加速推理速度。
通过LivelySpeaker框架实现了语义感知的共同语言手势生成,方法包括基于脚本的手势生成和基于音频引导的节奏细化。实验证明该框架相对竞争方法具有优势,并在两个基准测试中取得最先进的性能。代码和模型将在未来发布。