小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新方法——目标模型编辑（TME），针对大型语言模型的安全脆弱性，成功绕过安全过滤器，攻击成功率达到84.86%。强调了加强模型安全的重要性。

基于模型编辑的针对安全对齐大型语言模型的越狱攻击

BriefGPT - AI 论文速递 ·