Apple Machine Learning Research ·

延迟融合：将大语言模型集成到端到端语音识别的首次解码中

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文提出了一种高效的端到端自动语音识别解码方法，针对大语言模型在解码中的计算成本和词汇不匹配问题，采用“延迟融合”策略，减少LLM推理调用次数，从而提升解码速度和准确性。

🎯

🔎

延迟融合策略通过减少大语言模型的推理调用次数，显著提高了端到端语音识别的解码速度和准确性。这一方法不仅解决了计算成本高的问题，还有效应对了词汇不匹配的挑战，适合在实际应用中推广。

传统的浅融合方法在端到端语音识别中应用广泛，但在处理大语言模型时存在效率低下的问题。延迟融合通过在解码过程中重新标记ASR假设，克服了这一局限，展现出更优的性能，值得关注。

在实际应用中，采用延迟融合策略时需考虑ASR模型与大语言模型的兼容性，尤其是在标记化方式上。确保两者之间的协调可以进一步提升解码效果，避免因不匹配导致的性能下降。

❓

延迟融合策略是在解码过程中对ASR假设进行重新标记，并延迟应用大语言模型的评分，从而减少推理调用次数。

延迟融合在解码速度和准确性上优于浅融合和N-best重评分，减少了LLM推理调用次数。

大语言模型在解码中面临计算成本高和词汇不匹配的问题。

解决词汇不匹配问题通常需要重新训练ASR模型或LLM，但这往往耗时且不易实现。

实验结果表明，延迟融合在解码速度和准确性上优于浅融合和N-best重评分。

延迟融合允许在解码过程中对ASR假设进行重新标记，从而提高处理灵活性。

🏷️