Auffusion: 利用扩散和大型语言模型提升文本到音频生成的能力
原文中文,约500字,阅读约需2分钟。发表于: 。最新的扩散模型和大型语言模型 (LLMs) 在人工智能音频生成 (AIGC) 领域取得了重大进展。然而,现有的 Text-to-Audio (TTA) 研究经常在生成质量和文本音频对齐方面遇到困难,特别是对于复杂的文本输入。本研究通过借鉴最先进的 Text-to-Image (T2I) 扩散模型,引入了一种名为 Auffusion 的 TTA...
最新的扩散模型和大型语言模型在人工智能音频生成领域取得了重大进展。本研究引入了一种名为Auffusion的TTA系统,通过跨模态对齐改进了TTA任务的性能。研究结果显示Auffusion生成与文本描述准确匹配的音频的卓越能力,在音频风格转换、修复和其他操作中得到了验证。