研究团队提出了MODEL SWARMS算法,通过群体智能优化大型语言模型(LLM),无需微调,能在少量数据下适应多任务,显著提升模型性能。实验表明,初始专家多样性是关键,模型展现出新的能力。
本研究提出了一种名为“升级指令调优”(UpIT)的方法,解决将稠密模型转化为专家混合模型(MoE)时的数据需求问题。通过利用稠密模型的中间检查点灵活扩展专家数量,并结合遗传算法与参数合并,确保专家多样性。实验结果表明,UpIT在不同数据规模和设置下提高了数据效率和专家多样性。
完成下面两步后,将自动完成登录并继续当前操作。