本研究提出了一种可扩展的图像声化框架,解决了音频到图像生成模型训练中音视频配对数据稀缺的问题。该方法利用现代视觉语言模型进行数据配对,训练出的模型性能与最先进技术相当,并展现出多种听觉能力。
完成下面两步后,将自动完成登录并继续当前操作。