小红花·文摘

本文介绍了多个基于深度学习的音视觉生成模型，旨在提高音频与视频的同步性和对象定位性能。研究提出了新颖的模块和方法，通过自我监督学习和多任务学习框架，优化音频-视觉噪声抑制，生成高质量的视听内容，并在不同数据集上验证了其优越性。这些方法在音频生成、视频分析和动态控制等领域展现了良好的应用潜力。