本研究解决了神经文本到音频生成中的可控性和评估问题,提出了有效的评估协议,发现大模型表现优异,轻量化方法也展现出潜力,为音频质量和合成器架构提供了重要方向。
完成下面两步后,将自动完成登录并继续当前操作。