模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

研究发现大型语言模型在多项选择问题和开放性问题上的性能存在显著差异，可能是由于对安全概念的不完全理解导致的虚假对齐现象。引入FAEF框架和两个新指标，Consistency Score (CS)和Consistent Safety Score (CSS)，以综合评估和纠正性能估计偏差。应用FAEF框架到14个大型语言模型后发现，它们的对齐程度不高，突显了现有对齐方法的局限性。

Consistency Score FAEF框架多项选择问题大型语言模型安全开放性问题语言模型