Anthropic发现仅需少量文档即可对大型语言模型（LLM）进行毒化

InfoQ ·

Anthropic的研究表明，仅需250个恶意示例即可在大型语言模型（LLM）中创建“后门”漏洞。随着模型规模的增大，攻击变得更加容易。研究指出，成功攻击的关键在于恶意文档的数量，而非其在训练数据中的比例。这一发现可能使毒化攻击更具可行性，威胁LLM的安全性。

llm 后门大型语言模型安全性恶意示例毒化攻击

原文英文，约600词，阅读约需2分钟。