SALSA：快速的ASR-LLM同步聚合

本研究解决了将预训练的大型语言模型(LLM)应用于低资源语言的自动语音识别(ASR)系统时，解码时间延长和训练成本高的问题。我们提出的SALSA方法通过简单的解码器状态投影将ASR解码器与LLM解码器紧密耦合，并通过级联分词处理处理两者之间的分词不匹配，显著提高了训练效率。评估结果显示，SALSA在8种低资源语言的FLEURS基准测试中，词错误率(WER)降低幅度高达38%。

本文讨论了在多语言环境中部署大语言模型时的推理时间限制，并介绍了使用推测解码的助理模型的训练方法。通过有针对性的预训练和微调策略，优化了专门针对语言的草拟模型，显著减少了推理时间。验证了这些模型在推理时间、领域外优化和GPT-4o评估方面的效果。

llm 助理模型多语言环境大语言模型推理时间预训练