入选NeurIPS 2025,智源/北大/北邮提出多流控制视频生成框架,基于音频解混实现精确音画同步

📝

内容提要

音频驱动视频生成的现有方法,往往面临音频整体性带来的处理限制,使音频与视觉之间的对应关系趋于模糊。对此,北京智源人工智能研究院、北京大学、北京邮电大学共同提出了一种基于解混音频的音画同步视频生成框架,将输入音频拆分为语音、音效和音乐三类音轨,验证了音频解混与多流控制在复杂视频生成任务中的有效性。

🏷️

标签

➡️

继续阅读