本研究提出了名为Egida的扩展数据集,旨在提升大型语言模型(LLMs)在监狱破解攻击下的安全性。通过使用2,000个样本的小样本训练,研究表明攻击成功率降低了10%-30%,并增强了模型对新攻击风格的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。