小红花·文摘

该研究提出了一种名为INDENT的模型，利用交叉注意力模型和句子的时间顺序先验信息学习语音嵌入，从而在长篇音频记录中根据文本查询定位问题的位置。该模型在文本查询中相较于基于启发式方法的模型显著提高了有效性，并且演示了使用印度语音的噪声ASR在替代语音方面取得更好结果的情况。该模型只使用了印地语数据进行训练，在11种印度语言上进行了实证研究。