本研究提出了BreezyVoice,一个针对台湾普通话多音字消歧的文本转语音系统,结合先进语言模型,优化语音生成,尤其在代码切换环境中表现突出。
本研究解决了中文普通话文本转语音系统中的多音字消歧问题,提出了一种端到端框架,无需任何预处理,通过输入包含多音字的句子来预测其发音。研究发现,利用预训练的BERT模型提取语义特征并结合神经网络分类器,显著提高了多音字消歧的表现,且上下文信息对消歧过程的影响也得到了探讨。
完成下面两步后,将自动完成登录并继续当前操作。