大型语言模型(LLMs)在语音输入方面的表现不如文本输入,导致文本与语音理解之间存在差距。为缩小这一差距,研究提出了SALAD方法,通过交叉模态蒸馏和有针对性的合成数据,提升模型对齐性并减少遗忘。该方法在知识、语言理解和推理任务上表现优异,且所需语音数据显著减少。
完成下面两步后,将自动完成登录并继续当前操作。