小红花·文摘

本研究探讨了大型语言模型的越狱防御，特别是防止模型协助制造炸弹的行为。现有的防御策略如安全训练和对抗训练存在局限性。我们提出了一种新的转录分类器方法，测试结果优于基线防御，但仍面临挑战，显示狭域越狱防御的复杂性。