小红花·文摘

本研究解决了视频到音频合成中的音视频同步问题，通过构建名为“绘制音频”的模型，采用了多输入指令和掩膜-注意机制，确保生成音频与输入视频内容一致。该模型在大规模数据集上表现出色，达到了先进水平，具有广泛应用潜力。