小红花·文摘

研究人员提出了T2AV-Bench基准和T2AV模型，用于视频对齐文本到音频生成。T2AV通过整合视觉对齐的文本嵌入到生成模型中，实现视觉对齐和时间一致性。经过评估，T2AV在视觉对齐和时间一致性方面表现出色。