通过音频视觉分离器从声音景观生成和分离音频视觉

📝

内容提要

本研究解决了现有音频视觉生成模型只能处理单类音频的问题,提出了一种新模型AV-GAS,用于从包含多类音频的声音景观生成图像。该模型不仅提出了新的音频视觉生成挑战,还引入了音频视觉分离任务,并在VGGSound数据集上展示了其在生成图像的准确性和合理性方面的显著改进。

➡️

继续阅读