小红花·文摘

本文介绍了一种基于3D生成网络的方法，能够生成可控且逼真的说话者头像视频，处理面部表情和头部运动。该方法在多个基准测试中表现优异，并探讨了人机模仿技术、社交机器人反应及基于增强学习的姿势预测模型，展示了机器人运动学习和人类行为模拟的进展。