Apple Machine Learning Research ·

基于大型语言模型的设备导向语音检测用于后续对话

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文讨论了在NeurIPS 2024自适应基础模型研讨会上提出的设备导向语音检测（DDSD）方法。该方法通过建模首次查询，结合大型语言模型（LLMs）和自动语音识别（ASR）不确定性，提升了后续对话的自然交互体验。研究表明，该方法在真实数据集上显著降低了误报率。

🎯

🔎

设备导向语音检测（DDSD）方法的提出，标志着语音交互技术的一个重要进步。通过准确识别后续查询，用户可以更自然地与虚拟助手进行对话，减少了重复唤醒的麻烦。这种技术的应用将提升用户体验，尤其是在智能家居和移动设备等场景中。

该研究通过结合大型语言模型（LLMs）和自动语音识别（ASR）不确定性，显著提高了语音检测的准确性。这种方法不仅考虑了用户的首次查询，还利用了语音识别过程中的不确定性，从而更好地理解后续对话的上下文。这为未来的语音交互系统提供了新的思路。

研究表明，DDSD方法在真实数据集上实现了20-40%的误报率降低。这一成果对于提升语音助手的可靠性至关重要，尤其是在嘈杂环境中，用户更需要一个能够准确理解指令的系统。降低误报率将直接影响用户的满意度和对技术的信任。

❓

设备导向语音检测（DDSD）是一种通过建模首次查询来提升后续对话自然交互体验的方法。

DDSD方法通过结合大型语言模型（LLMs）和自动语音识别（ASR）不确定性，提升了后续对话的自然交互体验。

研究表明，该方法在真实数据集上显著降低了误报率，减少了20-40%。

DDSD方法通过建模首次查询，并利用ASR解码文本进行推理，来处理后续查询。

DDSD方法通过联合建模先前的语音上下文和ASR不确定性，显著降低了误报率，相比单独建模后续查询效果更佳。

DDSD方法的主要贡献在于提升了虚拟助手的自然交互体验，并显著降低了误报率。

🏷️