本研究提出了Speech-FT策略,通过模型合并解决微调语音表示模型时的泛化能力下降问题,提供了一种高效的解决方案。
本研究提出了一种新方法,将自监督语音表示与大语言模型结合,以提升多模态处理和语音理解,显示出在保留语音语义内容方面的优势。
本研究提出了一种语音表示净化与监督增强框架(SRPSE),有效消除音色和节奏等无关因素对语音转文本翻译的负面影响,显著提升翻译效果,尤其在无文本转录条件下表现优异。
本研究提出JOOCI框架,通过独立建模内容和表达方式信息,优化语音表示技术,提升语音表征和特征构建能力。实验结果表明,JOOCI在SUPERB基准测试中表现优于其他模型。
该研究使用大规模扩散模型进行无领域特定建模的语音合成,通过跨注意机制和预测语音表示总长度来解决文本-语音对齐问题,并在语音的潜在空间中结合语义引导进行提升。实验证明该模型具有与最先进的TTS模型相媲美的零-shot性能。
完成下面两步后,将自动完成登录并继续当前操作。