小红花·文摘

本研究提出了一种名为Auffusion的文本转音频系统，利用先进的扩散模型和大型语言模型，显著提升了生成质量和文本音频对齐能力。实验表明，该方法在有限数据和计算资源下优于以往技术，尤其在音频风格转换任务中表现卓越。