入选NeurIPS 2025，智源/北大/北邮提出多流控制视频生成框架，基于音频解混实现精确音画同步

HyperAI超神经 ·

北邮提出多流控制视频生成框架，基于音频解混实现精确音画同步

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

音频驱动的视频生成已成为多模态生成的重要方向。北京智源等机构提出了一种音画同步框架，通过将音频拆分为语音、音效和音乐，提升了视频生成的时序控制和音画对齐精度。实验结果显示，该方法在视频质量和同步性上显著提升，验证了音频解混与多流控制的有效性。

🎯

关键要点

音频驱动的视频生成是多模态生成的重要研究方向。
现有方法未区分语音、音效与音乐，导致音画对齐困难。
北京智源等提出音画同步框架，通过音频解混提升视频生成质量。
框架将音频拆分为语音、音效和音乐，分别驱动不同视觉生成过程。
实验结果显示该方法在视频质量和音画对齐上显著提升。
构建了音频同步视频生成数据集DEMIX，并提出多阶段训练策略。
MTV框架实现了更明确的语义控制，解决了模糊映射问题。
设计了多流时间控制网络，支持不同音频成分的差异化控制。
MTV框架具有多功能生成能力，包括角色叙事和声音触发事件。
引入区间特征注入和整体特征注入机制，实现精准的视听映射。
综合评价指标显示MTV在生成质量和时序稳定性上优于现有方法。
MTV在多模态对齐方面表现优异，强化音画对应关系。
与现有方法相比，MTV框架在复杂场景中保持高视觉质量和稳定同步效果。

❓

延伸问答

什么是音频驱动的视频生成框架？

音频驱动的视频生成框架是一种通过将音频拆分为语音、音效和音乐，提升视频生成的时序控制和音画对齐精度的技术。

MTV框架如何实现音画同步？

MTV框架通过多流时间控制网络，将音频拆分为不同轨道，分别控制唇形运动、事件时序和整体视觉氛围，从而实现音画同步。

DEMIX数据集的作用是什么？

DEMIX数据集用于训练模型，帮助学习音频与视觉之间的关系，支持多阶段训练策略以提高生成质量。

MTV框架在视频生成质量上有什么优势？

MTV框架在视频生成质量上表现优异，能够在复杂场景中保持高视觉质量和稳定的音画同步效果。

MTV框架如何处理复杂场景中的音画对齐问题？

MTV框架通过明确分离音频的语音、音效和音乐轨道，解决了复杂场景中音画对齐的模糊映射问题。

MTV框架的多功能生成能力包括哪些方面？

MTV框架的多功能生成能力包括角色叙事、多角色互动、声音触发事件和音乐营造氛围等。

🏷️

继续阅读

人工智能视频正在超越片段拼接
AI技术正在改变好莱坞的制作方式。公司如Luma和谷歌推出了新的AI工具，旨在提高制作效率、缩短制作时间，并解决角色一致性等问题。这些工具可能会导致工作岗...
元太科技发布新一代电子纸控制芯片架构，提升播放视频流畅度
元太科技发布新一代电子纸控制芯片架构，优化数据处理，75寸电子纸可实现每秒11帧的动态图像显示，显著提升视频播放流畅度。这将推动电子纸在零售广告和公共信息显示中的应用。
Phosphene – 原生级别，将任意视频设置为 macOS 桌面和锁屏壁纸
Phosphene是一款macOS工具，允许用户将视频设置为桌面壁纸和锁屏界面，支持无限循环和多显示器。它逆向苹果框架，提供接近原生的壁纸体验，用户可在系...
AI首次实现中国风光发电普查，北大、阿里达摩院研究登上《自然》
北京大学与阿里巴巴达摩院合作，利用人工智能和卫星影像绘制中国首张高精度风光设施分布图，揭示风电与光伏的互补潜力。研究表明，跨区域协同可显著提升新能源利用效...
合肥综合性国家科学中心人工智能研究院与大华股份共建视频物联智能体联合实验室
合肥综合性国家科学中心人工智能研究院与大华股份于5月18日签署合作协议，共建“IAI-Dahua视频物联智能体联合实验室”。该实验室将专注于视频深度认知和...
iProov推出企业视频通话深度伪造检测系统
iProov推出了Verified Meetings生物识别身份验证系统，旨在验证企业视频通话中的参与者身份，以应对深度伪造和合成身份的风险。该系统通过分...