如何用一个词破解 ChatGPT?

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

谷歌研究人员发表论文,揭示了攻击者破解OpenAI技术的容易程度。通过重复“诗”数百次,攻击者成功获取了ChatGPT的私人训练数据,包括个人信息和NSFW内容。该漏洞已被修补。

🎯

关键要点

  • 谷歌研究人员发表论文,揭示攻击者破解OpenAI技术的容易程度。

  • 攻击者通过重复“诗”数百次,成功获取ChatGPT的私人训练数据。

  • 研究表明,人工智能模型可能会记住训练数据中的示例,导致隐私信息泄露。

  • ChatGPT的对齐技术无法完全消除记忆,有时会逐字输出训练数据。

  • 有效的攻击方法非常简单,只需重复特定词汇即可。

  • 研究人员以200美元的成本获得了1万个ChatGPT吐出的训练数据例子。

  • 泄露的数据包括个人信息、版权保护的段落和NSFW内容。

  • 该漏洞已被修补。

➡️

继续阅读