小红花·文摘

本研究提出了一种统一的威胁模型，系统比较了监狱突破攻击方法。通过评估困惑度和计算预算，结果显示基于离散优化的攻击效果显著优于语言模型攻击，揭示了攻击者利用稀有N-gram突破安全防护的策略。