该文介绍了一种基于 LivelySpeaker 框架的语义感知的共同语言手势生成方法,分为基于脚本的手势生成和基于音频引导的节奏细化两个阶段。该方法利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势,并通过基于扩散的手势生成骨干将脚本引导的手势与音频信号相结合。
完成下面两步后,将自动完成登录并继续当前操作。