本研究提出Solla框架,旨在改善大语言模型在处理语音和音频混合指令时的不足。通过音频标记模块和语音识别预测方法,Solla提升了模型对音频事件的分类、描述和问答能力,展现出良好的适应性。
完成下面两步后,将自动完成登录并继续当前操作。