小红花·文摘

研究显示，微调大型语言模型可能带来安全风险。即使现有措施能限制推理时的有害行为，但微调时风险仍在。红队研究发现，少量恶意样例可影响GPT-3.5 Turbo的安全性。即便使用良性数据微调，也可能无意中降低安全性。建议加强安全协议应对这些风险。