Apple Machine Learning Research ·

缩小大型语言模型中文本与语音理解之间的差距

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

大型语言模型（LLMs）在语音输入方面的表现不如文本输入，导致文本与语音理解之间存在差距。为缩小这一差距，研究提出了SALAD方法，通过交叉模态蒸馏和有针对性的合成数据，提升模型对齐性并减少遗忘。该方法在知识、语言理解和推理任务上表现优异，且所需语音数据显著减少。

🎯

🔎

大型语言模型在语音输入方面的表现不如文本输入，导致文本-语音理解差距。这一差距不仅影响了模型的实际应用，还可能限制了语音识别技术在多种场景中的有效性，尤其是在需要高准确率的领域，如医疗和法律。

SALAD方法通过交叉模态蒸馏和有针对性的合成数据，显著提高了模型的对齐性并减少了遗忘。这种方法的创新在于其数据效率，能够在较少的语音数据下实现与大型模型相当的性能，降低了对昂贵数据集的依赖。

尽管SALAD方法在缩小文本-语音理解差距方面取得了进展，但仍需进一步研究以优化模型在不同语言和方言中的适应性。此外，探索如何在更广泛的应用场景中保持模型性能，将是未来的重要研究方向。

❓

大型语言模型在语音输入方面的表现不如文本输入，存在明显的文本-语音理解差距。

文本-语音理解差距是指语音适应的LLM在处理语音输入时性能下降，相比于处理相同文本时的表现。

SALAD方法通过交叉模态蒸馏和有针对性的合成数据来提高模型对齐性并减少遗忘，从而缩小文本与语音理解差距。

现有方法通常依赖于大规模的语音合成文本语料库或大型专有语音数据集，这些方法成本高且不可重复。

SALAD方法在知识、语言理解和推理任务上表现优异，且所需的语音数据显著减少。

导致文本-语音理解差距的主要因素是适应过程中文本能力的遗忘和语音与文本之间的跨模态不对齐。

🏷️