BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新方法,通过将语音编码为与说话者无关的离散语义标记,解决了口语术语检测中对帧级特征的依赖和动态时间规整模板匹配的计算密集性问题。实验结果表明,该方法在LibriSpeech和TIMIT数据集上优于现有基线,并且效率更高。

🎯

关键要点

  • 本研究提出了一种新方法,通过将语音编码为与说话者无关的离散语义标记,解决了口语术语检测中对帧级特征的依赖。

  • 该方法还解决了动态时间规整模板匹配的计算密集性问题,提高了检索速度。

  • 实验结果表明,该方法在LibriSpeech和TIMIT数据集上优于现有基线,并且效率更高。

  • 该方法能够处理超出词汇表的术语,增强了口语术语检测的实用性。

➡️

继续阅读