Anthropic发现仅需少量文档即可对大型语言模型(LLM)进行毒化

Anthropic发现仅需少量文档即可对大型语言模型(LLM)进行毒化

InfoQ InfoQ ·

Anthropic的研究表明,仅需250个恶意示例即可在大型语言模型(LLM)中创建“后门”漏洞。随着模型规模的增大,攻击变得更加容易。研究指出,成功攻击的关键在于恶意文档的数量,而非其在训练数据中的比例。这一发现可能使毒化攻击更具可行性,威胁LLM的安全性。

原文英文,约600词,阅读约需2分钟。
阅读原文