设备导向语音检测(DDSD)是一项二元分类任务,旨在区分用户对语音助手的查询与背景对话。本文提出了一种新型知识蒸馏方法,通过从大型预训练声学编码器中转移知识,显著提升DDSD的准确性。实验结果显示,该方法在关键词和无关键词调用中,分别提高了26%和19%的错误率,并在不同模型架构中展现出良好的泛化能力。
本文讨论了在NeurIPS 2024自适应基础模型研讨会上提出的设备导向语音检测(DDSD)方法。该方法通过建模首次查询,结合大型语言模型(LLMs)和自动语音识别(ASR)不确定性,提升了后续对话的自然交互体验。研究表明,该方法在真实数据集上显著降低了误报率。
完成下面两步后,将自动完成登录并继续当前操作。