研究人员提出了T2AV-Bench基准和T2AV模型,用于视频对齐文本到音频生成。T2AV通过整合视觉对齐的文本嵌入到生成模型中,实现视觉对齐和时间一致性。经过评估,T2AV在视觉对齐和时间一致性方面表现出色。
完成下面两步后,将自动完成登录并继续当前操作。