通过概念激活向量揭示开放源代码 LLMs 中的安全风险

原文约300字,阅读约需1分钟。发表于:

通过概念模型解释从大规模语言模型中提取安全概念激活向量(SCAVs),我们介绍了一种 LLM 攻击方法,可以对经过充分安全对齐的 LLMs 如 LLaMA-2 进行高效攻击,达到近 100% 的攻击成功率,表明即使经过彻底的安全对齐,LLMs 在公开发布后仍可能对社会造成潜在风险。

大型语言模型对话应用的滥用引起了社会关注,最新研究关注攻击、防御和评估三个方面。该调查提供了对大型语言模型对话安全的综述,鼓励进一步研究。

相关推荐 去reddit讨论