小红花·文摘

本研究提出Solla框架，旨在改善大语言模型在处理语音和音频混合指令时的不足。通过音频标记模块和语音识别预测方法，Solla提升了模型对音频事件的分类、描述和问答能力，展现出良好的适应性。