本研究提出了Speech-FT策略,通过模型合并解决微调语音表示模型时的泛化能力下降问题,提供了一种高效的解决方案。
本研究提出了一种新方法,将自监督语音表示与大语言模型结合,以提升多模态处理和语音理解,显示出在保留语音语义内容方面的优势。
本研究提出了一种语音表示净化与监督增强框架(SRPSE),有效消除音色和节奏等无关因素对语音转文本翻译的负面影响,显著提升翻译效果,尤其在无文本转录条件下表现优异。
JOOCI框架旨在优化现有语音表示技术在内容与表达方式上的不足,通过独立建模这两类信息,显著提升了语音表征效果,并在SUPERB基准测试中表现优于其他模型。
本研究提出了Sylber模型,解决了神经语言表示缺乏结构的问题。该模型通过自监督学习生成具有清晰音节结构的语音表示,从而提高了语音理解效率,并展示了重建可理解语音的潜力。
完成下面两步后,将自动完成登录并继续当前操作。