小红花·文摘

使用端到端的自动语音识别模型代替传统的语音活动检测器，在处理长音频时表现更好，提供更好的声学特征和语义特征。实验结果显示，相比于传统方法，改进了8.5%的相对WER和减少了250ms的分割延迟。