实时互动网 ·

开源 | MeiGen-MultiTalk：基于单张照片实现多人互动演绎

💡 原文中文，约7900字，阅读约需19分钟。

📝

内容提要

美团推出了开源的多人对话视频生成框架MultiTalk，利用L-RoPE技术解决多音频流与人物错位问题。该框架适用于影视制作和直播电商，能够生成自然的交互视频，提升AI在内容创作中的应用潜力。

🎯

🔎

MultiTalk的L-RoPE技术通过将类别标签融入位置编码，解决了多音频流与人物的精准绑定问题。这一创新不仅提升了视频生成的自然度，也为影视制作、直播电商等领域带来了新的可能性，预示着AI在内容创作中的更广泛应用。

MultiTalk采用多任务训练策略，结合音频与图像到视频的训练，确保模型在复杂场景下的指令遵循能力。这种方法不仅提高了模型的泛化能力，还能有效处理多人物互动，减少视觉伪影，提升生成视频的质量。

尽管MultiTalk在多人物对话生成方面表现出色，但仍面临真实音频与合成音频之间的性能差距等挑战。未来的研究需要进一步提升合成音频的自然度，以满足用户对真实感和复杂性的更高要求。

❓

MultiTalk框架能够生成自然的多人对话视频，适用于影视制作和直播电商。

L-RoPE技术通过将类别标签融入位置编码，实现多流音频与多个人物的精准绑定。

MultiTalk采用局部参数训练和多任务学习策略，确保音频与人物的精确同步。

MultiTalk的训练分为两个阶段，首先训练单人视频能力，然后使用双流音频数据训练多人物视频。

实验结果显示，MultiTalk在唇形同步和视频质量方面超越了现有最先进的方法。

MultiTalk在多角色电影制作、虚拟直播、游戏开发等领域具有广阔的应用前景。

🏷️