美团技术团队 ·

开源 | MeiGen-MultiTalk：基于单张照片实现多人互动演绎

💡 原文中文，约8400字，阅读约需20分钟。

📝

内容提要

美团推出了开源的多人对话视频生成框架MultiTalk，利用L-RoPE技术解决多音频流与人物错位问题。该框架支持音频流、图像和文本输入，生成自然互动视频，适用于影视制作和直播电商等场景。

🎯

🔎

MultiTalk的L-ROPE技术在多音频流与人物绑定方面的创新，标志着AI视频生成技术的重大进步。这一技术不仅提升了视频生成的自然度和互动性，还为影视制作、直播电商等领域提供了新的工具，推动了内容创作的效率和质量。

尽管MultiTalk在多人物对话生成中表现出色，但仍面临真实音频与合成音频之间的性能差距等挑战。此外，复杂场景下的动态人物定位和指令遵循能力仍需进一步优化，以满足用户对生成内容的高要求。

MultiTalk采用的多任务训练策略，通过同时处理音频和图像输入，增强了模型的指令遵循能力。这种方法不仅提高了生成视频的质量，还确保了模型在不同任务间的泛化能力，为复杂场景的生成提供了更强的支持。

❓

MultiTalk框架能够通过音频流、图像和文本输入生成自然的多人互动视频，适用于影视制作和直播电商等场景。

L-ROPE技术实现多流音频与多个人物的精准绑定，解决了音频与人物的精确同步问题。

MultiTalk通过L-ROPE技术和音频适配器，确保音频与视频帧的时间粒度匹配，从而解决多音频流与人物错位的问题。

MultiTalk采用两阶段训练、部分参数训练和多任务训练策略，以提升模型的音频处理和指令遵循能力。

MultiTalk在唇形同步和视频质量方面表现出色，超越了现有最先进的方法。

MultiTalk的应用前景广泛，包括多角色电影制作、虚拟直播、游戏开发等领域。

🏷️