PoseTalk：基于文本和音频的姿势控制与动作细化的一次性对话头生成

本研究旨在解决传统音频驱动的对话头生成方法中，姿势与音频不匹配以及缺乏可编辑性的问题。通过引入PoseLatent Diffusion模型，结合文本提示和音频生成自然的头部动作，并提出基于细化学习策略的两级网络（CoarseNet和RefineNet），显著提高了唇部同步性和视频生成的自然度。实验表明，该方法在姿势多样性和真实感方面优于现有方法。

本研究提出了高效解开耦合框架(EDTalk)用于言语生成，能够分解面部动态并对嘴型、头部姿势和情绪表达进行个别操作。通过三个轻量级模块将面部动态分解为嘴部、姿势和表情的三个独立潜在空间，并利用可学习的基向量对每个空间内的特定运动进行定义。实验证明了EDTalk的有效性。

EDTalk 嘴型头部姿势面部动态高效解开耦合框架