LED Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint Method

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种LED合并框架,旨在解决大型语言模型微调中的安全性与效用之间的冲突。通过定位特定神经元、动态选择关键神经元并隔离冲突更新,降低有害响应率,同时保持高效能。实验结果表明,该方法为构建多任务模型提供了一种轻量级解决方案。

🎯

关键要点

  • 本研究提出了一种LED合并框架,旨在解决大型语言模型微调中的安全性与效用之间的冲突。
  • LED合并框架通过梯度归因定位任务特定神经元,动态选择关键神经元,并隔离冲突更新。
  • 该方法有效降低了有害响应率,同时保持了高效能。
  • 实验结果表明,该方法为构建多任务大型语言模型提供了一种轻量级且无需训练的解决方案。
➡️

继续阅读