BEST-STD:双向Mamba增强的语音标记化用于口语术语检测
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新方法,通过将语音编码为离散语义标记,解决了口语术语检测中的帧级特征依赖和动态时间规整问题,从而提高了检索速度和效率。
🎯
关键要点
- 本研究提出了一种新方法,解决了口语术语检测中的帧级特征依赖问题。
- 该方法通过将语音编码为离散的与说话者无关的语义标记,提高了检索速度和效率。
- 研究还解决了动态时间规整模板匹配的计算密集型问题。
- 实验结果显示,该方法在LibriSpeech和TIMIT数据集上优于现有的口语术语检测基线。
- 该方法能够处理超出词汇表的术语。
➡️