研究显示,微调大型语言模型可能带来安全风险。即使现有措施能限制推理时的有害行为,但微调时风险仍在。红队研究发现,少量恶意样例可影响GPT-3.5 Turbo的安全性。即便使用良性数据微调,也可能无意中降低安全性。建议加强安全协议应对这些风险。
完成下面两步后,将自动完成登录并继续当前操作。