小红花·文摘

本文研究了通过微调深度学习的文字转语音模型，利用少量数据合成情感语音。提出了基于文本的情感风格控制和跨说话人情感转移等方法，展示了在情感表达、自然度和可控性方面的优势。同时，开发了大规模语音情感数据集TextrolSpeech和新架构Salle，提升了可控TTS性能。

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的中文方言TTS前端和翻译模块，旨在将普通话文本转化为方言，以提高语音合成的可懂性和自然度。实验结果表明，该方法在粤语上的性能显著提升。此外，研究还探讨了多说话人语音合成、跨语言语音转移及情感语音合成模型，均取得良好效果。

BriefGPT - AI 论文速递 ·

该研究提出了一种音频-文本交叉模态表示提取器，利用注意力机制提升智能语音识别（ASR）性能。通过上下文注入和数据增强技术，显著改善了情感语音的识别效果，并降低了词错误率（WER）。研究还探讨了自然语音识别噪音对信息检索的影响，并提出了解决方案以提高口头语言理解的鲁棒性。

BriefGPT - AI 论文速递 ·