当前模型合并技术常忽视安全对齐,导致模型不对齐。研究评估了几种合并方法,发现它们会传播错对齐。我们提出两步法:生成安全和领域数据,并将其用于模型合并优化。实验表明,该方法能提升模型的专业性和对齐性。
本研究调查了模型合并对对齐的影响,发现现有方法不仅传递了领域专业知识,还传播了错对齐。提出了一个两步方法来解决这个问题,实验证明其有效性,产生了优秀的模型。
完成下面两步后,将自动完成登录并继续当前操作。