FreeBuf网络安全行业门户 ·

加一个字母就可以绕过AI围栏，新的漏洞：TokenBreak

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

提示词注入攻击已成为大模型的主要威胁。研究表明，TokenBreak可以绕过文本分类模型的检测，通过巧妙修改输入词汇而不改变其含义。BERT等模型易受攻击，而Unigram模型相对安全，因此建议在提示词检测中优先使用Unigram模型。

🎯

关键要点

提示词注入攻击是大模型的主要威胁，攻防仍在继续。
当前主要的防护方法是使用BERT模型进行检测。
TokenBreak是一种新型漏洞，可以绕过文本分类模型的检测。
TokenBreak通过巧妙修改输入词汇而不改变其含义来实现攻击。
BERT、DistilBERT和RoBERTa等模型易受TokenBreak攻击，而DeBERTa-v2和v3模型相对安全。
使用Unigram分词策略的模型不易受到此类攻击，因其保留了原始分词方式。
BPE和WordPiece分词策略会导致分类模型失效。
在进行提示词检测时，建议优先选择Unigram类模型。
攻防技术仍在发展，当前的防护措施可能在未来失效。

❓

延伸问答

什么是TokenBreak漏洞？

TokenBreak是一种新型漏洞，可以通过巧妙修改输入词汇而不改变其含义，绕过文本分类模型的检测。

哪些模型容易受到TokenBreak攻击？

BERT、DistilBERT和RoBERTa等模型容易受到TokenBreak攻击。

如何防止TokenBreak攻击？

建议在提示词检测中优先使用Unigram分词策略的模型，因为它们不易受到此类攻击。

TokenBreak攻击的原理是什么？

TokenBreak通过在某些单词前添加字符，造成防御模型和目标LLM之间的理解分歧，从而绕过检测。

BPE和WordPiece分词策略的缺陷是什么？

BPE和WordPiece分词策略会导致分类模型失效，因为它们修改了分词方式，使得模型无法正确理解输入。

为什么Unigram模型更安全？

Unigram模型保留了原始分词方式，能够有效防止TokenBreak攻击，因此在提示词检测中更为安全。

🏷️

继续阅读

AI攻防视界：从Mythos破局看漏洞挖掘的工程化跃迁
Mythos Preview模型在漏洞挖掘方面取得重大突破，能够自动发现并串联低危漏洞，生成可验证的PoC代码。该模型在多语言审计中表现出色，真阳性率高达...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
现代版掩耳盗铃：Instagram AI漏洞并未被修复只是从前端隐藏界面且被黑客继续利用
Meta旗下的Instagram存在AI账户恢复助手漏洞，黑客可通过该助手重置密码和修改邮箱，导致多个账户被盗。尽管Meta声称已修复漏洞，但实际上只是隐...
AI和柜台费
文章讨论了AI行业与传统行业的区别，强调AI模型的边际成本和库存压力。雷不斯和马斯克的策略突显了中间商和渠道的重要性，AI供应商需依靠真实用户数据以避免被...
是时候造一台 AI 时代的手机了｜AIDONE 第五期
在AI时代，手机成为AI应用的最佳终端。vivo与爱范儿将于6月10日在广州举办AIDONE第五期，讨论如何将AI更好地融入手机工作流，提升用户体验。参与...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...