小红花·文摘

研究表明，大型语言模型容易受到注入攻击。通过 Tensor Trust 游戏玩家生成的庞大数据集，包括 126,000 个攻击和 46,000 个防御示例，是目前最大的人为对抗示例数据集。研究揭示了模型对这些攻击的脆弱性，并指出这些策略的普适性。数据和代码已公开。