大型语言模型在实际应用中容易受到注入攻击。研究提供了一个由Tensor Trust游戏玩家创建的对抗示例数据集,包含超过12.6万次攻击和4.6万次防御实例。利用该数据集,我们建立了抵抗注入攻击的基准测试,发现许多模型对此类攻击策略很脆弱。部分策略在不同条件下的LLMs应用中也有效。数据和源代码已公开。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: