基于语音检索增强的LLM语音识别上下文化
原文英文,约200词,阅读约需1分钟。发表于: 。Large language models (LLMs) have shown superb capability of modeling multimodal signals including audio and text, allowing the model to generate spoken or textual response given a speech input....
大型语言模型在处理语音输入时识别命名实体有挑战。本文提出一种基于检索的方法:先检测语音中的命名实体,再用该实体从个人数据库中检索相似实体,进行上下文感知解码。在语音助手任务中,该方法使命名实体错误率降低73.6%,词错误率降低30.2%,且无需完整数据库,提高效率。