小红花·文摘

本文探讨了大型语言模型（LLM）防御的有效性，提出了一种基于信息的白箱攻击方法，通过中间模型检查点提升攻击效率。研究发现，现有的对齐防御方法存在脆弱性，需在强威胁模型下进行评估。