变压器中的叠加:构建专家混合的新颖方法

📝

内容提要

本文解决了在将大型语言模型适应新任务或领域时,灾难性遗忘这一重要问题。通过引入一种新的变压器架构,利用自编码器在共享参数空间内叠加基础模型和微调模型的隐藏表示,有效缓解了灾难性遗忘,并支持在推理时动态切换模型状态,从而在保留原始模型能力的同时增加领域特定的专业知识。

➡️

继续阅读