该研究提出了一种音频-文本交叉模态表示提取器,利用注意力机制提升智能语音识别(ASR)性能。通过上下文注入和数据增强技术,显著改善了情感语音的识别效果,并降低了词错误率(WER)。研究还探讨了自然语音识别噪音对信息检索的影响,并提出了解决方案以提高口头语言理解的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。