小红花·文摘

本研究提出WavRAG框架，解决了现有检索增强生成模型在处理语音输入时的信息丢失和转换错误问题。WavRAG能够直接处理原始音频，将音频与文本整合为统一知识表示，显著提升口语对话模型的上下文处理能力，并实现10倍加速，拓展了音频领域的应用。