本研究提出了TARO框架,通过时间步自适应表示对齐和起始感知条件,显著提升视频到音频合成的质量和同步性。实验结果表明,TARO在音频质量和同步精度上优于现有方法,展现出卓越性能。
完成下面两步后,将自动完成登录并继续当前操作。