从视觉内容看听觉信息——视频到音频的生成与文本结合

📝

内容提要

本研究针对视频到音频生成任务中的可控性不足问题,提出了一种新的多模态生成框架VATT。该框架通过引入文本提示,使得音频生成过程更具精确性,并能够根据视频生成音频描述,展现了在性能和用户偏好方面的显著改善,拓展了视频与音频交互的应用潜力。

➡️

继续阅读