本研究提出YingSound模型,解决产品视频生成音效时标记数据不足的问题。该模型通过条件流匹配变换器实现音频与视觉的语义对齐,并引入多模态思维链方法,实验结果表明其能有效生成高质量的同步音效。
完成下面两步后,将自动完成登录并继续当前操作。