本文介绍了多个基于深度学习的音视觉生成模型,旨在提高音频与视频的同步性和对象定位性能。研究提出了新颖的模块和方法,通过自我监督学习和多任务学习框架,优化音频-视觉噪声抑制,生成高质量的视听内容,并在不同数据集上验证了其优越性。这些方法在音频生成、视频分析和动态控制等领域展现了良好的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。