小红花·文摘

本研究探讨了安全大型语言模型（LLMs）训练中的问题，指出拒绝训练方法在应对超出分布攻击时的局限性。提出通过推理监督引导模型利用潜在知识，以提高模型的泛化性能和安全性，实验结果表明该方法有效增强了模型的健壮性。