小红花·文摘

本研究提出了名为Egida的扩展数据集，旨在提升大型语言模型（LLMs）在监狱破解攻击下的安全性。通过使用2,000个样本的小样本训练，研究表明攻击成功率降低了10%-30%，并增强了模型对新攻击风格的泛化能力。