本研究提出了一种新方法,通过将语音编码为与说话者无关的离散语义标记,解决了口语术语检测中对帧级特征的依赖和动态时间规整模板匹配的计算密集性问题。实验结果表明,该方法在LibriSpeech和TIMIT数据集上优于现有基线,并且效率更高。
完成下面两步后,将自动完成登录并继续当前操作。