小红花·文摘

我们提出了一种框架，能够通过语音生成真实感的全身虚拟人物姿势，包括面部和手部动作。结合向量量化和扩散技术，该模型生成动态且富有表现力的运动，并利用多视角对话数据集进行研究。实验结果表明，该模型在姿势生成方面优于传统方法，突出了细微运动细节的重要性。