当前模型合并技术常忽视安全对齐,导致模型不对齐。研究评估了几种合并方法,发现它们会传播错对齐。我们提出两步法:生成安全和领域数据,并将其用于模型合并优化。实验表明,该方法能提升模型的专业性和对齐性。
完成下面两步后,将自动完成登录并继续当前操作。