本研究探讨了安全大型语言模型(LLMs)训练中的问题,指出拒绝训练方法在应对超出分布攻击时的局限性。提出通过推理监督引导模型利用潜在知识,以提高模型的泛化性能和安全性,实验结果表明该方法有效增强了模型的健壮性。
完成下面两步后,将自动完成登录并继续当前操作。