小红花·文摘

该研究提出了一种音频-文本交叉模态表示提取器，利用注意力机制提升智能语音识别（ASR）性能。通过上下文注入和数据增强技术，显著改善了情感语音的识别效果，并降低了词错误率（WER）。研究还探讨了自然语音识别噪音对信息检索的影响，并提出了解决方案以提高口头语言理解的鲁棒性。