小红花·文摘

本研究提出了TARO框架，通过时间步自适应表示对齐和起始感知条件，显著提升视频到音频合成的质量和同步性。实验结果表明，TARO在音频质量和同步精度上优于现有方法，展现出卓越性能。