小红花·文摘

本文研究了参数高效的微调方法在大型语言模型上的应用。研究发现，特定任务的路由分布往往高度集中，而激活的专家分布在不同任务之间差异显著。提出了专家定制微调方法，在冻结其他专家和模块的同时调整与下游任务最相关的专家。实验结果表明，该方法提高了调整效率，甚至超过了全参数微调的性能。进一步分析发现，具有更细粒度专家的模型能更好地选择与下游任务最相关的专家组合，提高训练效率和效果。