SALSA:快速的ASR-LLM同步聚合
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了将预训练的大型语言模型(LLM)应用于低资源语言的自动语音识别(ASR)系统时,解码时间延长和训练成本高的问题。我们提出的SALSA方法通过简单的解码器状态投影将ASR解码器与LLM解码器紧密耦合,并通过级联分词处理处理两者之间的分词不匹配,显著提高了训练效率。评估结果显示,SALSA在8种低资源语言的FLEURS基准测试中,词错误率(WER)降低幅度高达38%。
本文讨论了在多语言环境中部署大语言模型时的推理时间限制,并介绍了使用推测解码的助理模型的训练方法。通过有针对性的预训练和微调策略,优化了专门针对语言的草拟模型,显著减少了推理时间。验证了这些模型在推理时间、领域外优化和GPT-4o评估方面的效果。