Apple Machine Learning Research ·

SELMA：用于虚拟助手交互的语音启用语言模型

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文介绍了SELMA，一个用于虚拟助手交互的语音启用语言模型。SELMA同时处理三项主要任务和两项辅助任务，采用低秩适应模块进行高效训练。实验结果表明，SELMA在语音触发检测和设备导向语音检测任务上显著提高了性能，简化了虚拟助手的输入处理流程。

🎯

🔎

SELMA能够同时处理三项主要任务和两项辅助任务，这种设计使得虚拟助手在交互时更加高效。相比于传统模型，SELMA的多任务处理能力不仅提升了响应速度，还减少了系统资源的消耗，适合在资源有限的设备上运行。

SELMA采用低秩适应模块进行训练，这种方法提高了音频编码器和大型语言模型的参数效率。通过减少模型的复杂性，SELMA能够在保持性能的同时，降低计算成本，这对于需要实时响应的虚拟助手尤为重要。

实验结果显示，SELMA在语音触发检测和设备导向语音检测任务上分别提高了64%和22%的性能。这意味着在实际应用中，用户的语音指令被识别的准确性显著提升，能够更好地满足用户需求，增强用户体验。

❓

SELMA是一个用于虚拟助手交互的语音启用语言模型，能够同时处理三项主要任务和两项辅助任务。

SELMA通过低秩适应模块和特征池化策略，提高了音频编码器和大型语言模型的参数效率，识别全局模式，从而提升了任务的准确性。

SELMA在语音触发检测任务上相对提高了64%的错误率，显著改善了性能。

SELMA简化了虚拟助手的输入处理流程，并在多个任务上表现优于专门模型。

SELMA同时处理三项主要任务和两项辅助任务，具体的辅助任务未在文章中详细说明。

SELMA在多个任务上表现优于专门模型，尤其在语音触发检测和设备导向语音检测任务上有显著提升。

🏷️