机器之心 ·

真假难辨！阿里升级AI人像视频生成，表情动作直逼专业水准

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

EMO2是阿里巴巴通义实验室提出的音频驱动高表现力人像AI视频生成技术，通过音频生成手部动作，再利用视频模型生成面部表情和身体动作，效果显著优于传统方法，能够生成自然流畅的人物视频。

🎯

🔎

EMO2的开发背景源于音频驱动生成自然动作的技术挑战。以往方法在生成手部动作时常出现肢体错乱和表现力不足的问题，主要由于人类身体的复杂性。EMO2通过建立音频与手部动作的直接联系，简化了这一过程，显示出其在技术上的创新性。

EMO2采用两阶段生成方案，首先生成手部动作，再生成面部表情和身体动作。这种方法不仅提高了动作生成的多样性和一致性，还能更好地捕捉音频信号与动作之间的关系，展现出更高的表现力，适用于虚拟主播等新兴领域。

EMO2的技术进步为虚拟人和数字交互提供了新的可能性，但也伴随潜在风险。生成的内容可能被滥用，导致虚假信息传播。因此，如何在享受技术便利的同时，确保其使用的伦理性和安全性，将是未来需要关注的重要问题。

❓

EMO2技术能够通过音频生成自然流畅的人物视频，包括手部动作、面部表情和身体动作。

EMO2在动作生成和视频生成方面具有更大运动范围和多样性，生成的手势动作和面部表情更具表现力。

EMO2通过建立音频与手部动作的映射关系，利用DIT模型生成高表现力的手势动作。

第一阶段生成手部动作，第二阶段使用视频生成模型合成面部表情和身体动作。

EMO2通过逆向运动学方法和像素先验知识，简化了生成复杂动作的过程。

研究发现手部动作与音频信号之间的关联最为显著，这为动作生成提供了新的思路。

🏷️