本研究提出一种新架构,将语音和文本嵌入结合,利用双重多头注意力机制提升对话策略。在嘈杂环境中,音频嵌入策略比仅文本策略提升9.8%用户评分,显示音频信息的重要性。
提出了一种新颖的用户定义关键词识别方法MM-KWS,利用多模态注册的文本和语音模板。通过提取音素、文本和语音嵌入,并与查询语音嵌入进行比较,以检测目标关键词。实验证明,MM-KWS在多种语言环境下适用,并整合了高级数据增强工具,提高了性能。
该研究提出了一种名为INDENT的模型,利用交叉注意力模型和句子的时间顺序先验信息学习语音嵌入,从而在长篇音频记录中根据文本查询定位问题的位置。该模型在文本查询中相较于基于启发式方法的模型显著提高了有效性,并且演示了使用印度语音的噪声ASR在替代语音方面取得更好结果的情况。该模型只使用了印地语数据进行训练,在11种印度语言上进行了实证研究。
完成下面两步后,将自动完成登录并继续当前操作。