机器之心 ·

好活！字节，南加大，斯坦福等新开源的小人跳舞X-Dyna，人脸、背景都生动起来了

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

AIxiv专栏报道了人像视频生成的最新进展，研究团队提出了X-Dyna框架，提升了肢体动作和面部表情的迁移准确性，并生成自然背景，解决了动态细节不足的问题。这项技术在数字艺术和社交媒体等领域具有广泛应用前景。

🎯

🔎

X-Dyna框架通过引入Dynamics-Adapter模块，显著提升了人像视频生成中的动态细节和表情控制能力。与传统的并行U-Net结构相比，X-Dyna在保持生成质量的同时，减少了训练参数的复杂性，使得生成的背景更加自然，人物动作更为流畅。这一创新为数字艺术和社交媒体内容创作提供了新的可能性。

随着X-Dyna技术的推出，数字艺术、社交媒体和虚拟人等领域的内容创作将迎来新的变革。该技术不仅能提升视频生成的真实感，还能为创作者提供更丰富的表现手法，吸引更多用户参与互动。这意味着相关企业在市场竞争中可能获得更大的优势，尤其是在内容创作和传播方面。

尽管X-Dyna在动态细节生成和表情控制方面表现优异，但仍面临一些技术挑战，如对不同类型参考图像的泛化能力和实时生成的效率问题。未来的研究可以集中在优化模型结构和提升计算效率，以便更好地满足实际应用需求，推动人像视频生成技术的进一步发展。

❓

X-Dyna框架提升了肢体动作和面部表情的迁移准确性，并生成自然背景，解决了动态细节不足的问题。

X-Dyna通过引入Dynamics-Adapter模块，将参考图像的语义信息加入去噪过程，从而提升动态细节生成能力。

X-Dyna框架包含Dynamics-Adapter、S-Face ControlNet和Pose ControlNet三个主要模块。

X-Dyna通过S-Face ControlNet模块提升了表情迁移的准确性，表现优于现有方法。

X-Dyna在数字艺术、社交媒体和虚拟人等领域具有广泛的应用前景。

字节跳动智能创作团队参与了X-Dyna的研究，并向企业开放技术能力和服务。

🏷️