微调对齐语言模型牺牲了安全性,即使用户并无此意!
原文中文,约500字,阅读约需2分钟。发表于: 。通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调,就可能危及...
本文探讨了在预训练的大型语言模型上进行微调的安全风险,即使使用良性数据集进行微调,也可能降低模型的安全对齐性。同时,恶意设计的训练样例也可能危及模型的安全性。需要进一步的研究努力来加强对齐的语言模型的自定义微调的安全协议。