本研究提出了TokenSynth模型,旨在解决乐器克隆和文本生成中的合成质量与灵活性问题。该模型通过解码器单一变压器生成音频令牌,展示了先进神经音频编码器的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。