本研究提出了一种基于意图的听觉场景理解(II-ASU)方法,开发了听觉注意力驱动的大型语言模型(AAD-LLM),通过脑电图数据解码听众关注的说话者,实验结果表明其在多说话者场景中的表现优于传统模型。
我们开发了MParrotTTS,一个支持多语言和多说话者的文字转语音模型。通过模块化的自我监督训练,该模型在最少数据下适应新语言,并保持说话者特征。实验显示,在六种语言中,MParrotTTS的语音流畅度和相似度优于现有模型,且仅需少量训练数据。
完成下面两步后,将自动完成登录并继续当前操作。