精调后保持 LLMs 一致性:提示模板的关键作用
原文中文,约400字,阅读约需1分钟。发表于: 。本文研究了如何减轻模型由于微调引起的安全问题,通过对几个聊天模型进行广泛实验,发现在微调和推理过程中使用的提示模板对于保持安全对齐至关重要,并提出了 “纯微调,安全测试”(PTST)原则,即在没有安全提示的情况下微调模型,但在测试时使用它。在 GSM8K,ChatDoctor 和 OpenOrca 上进行的微调实验表明,PTST 显著减少了不安全行为的发生,甚至在某些情况下几乎消除了它们。
研究发现,对大型语言模型进行微调可能会危及其安全性,即使使用良性数据集进行微调也可能降低安全性。当前的安全基础设施无法解决这些风险,需要进一步研究以加强对齐的语言模型的安全协议。