研究表明,大型语言模型容易受到注入攻击。通过 Tensor Trust 游戏玩家生成的庞大数据集,包括 126,000 个攻击和 46,000 个防御示例,是目前最大的人为对抗示例数据集。研究揭示了模型对这些攻击的脆弱性,并指出这些策略的普适性。数据和代码已公开。
完成下面两步后,将自动完成登录并继续当前操作。