大型语言模型在文本处理中的成功促使其应用于语音建模,但现有语音标记主要关注语言特征,忽视韵律信息,导致生成语音自然性不足。为此,我们提出一种端到端的变分方法,自动学习连续语音属性,增强语义标记,避免手动特征提取。
本研究提出了一种新方法,通过生成合成交错数据,解决了传统语音语言模型在无监督数据不足时的扩展性问题,取得了语音建模和问答任务的最佳性能。
完成下面两步后,将自动完成登录并继续当前操作。