如何用一个词破解 ChatGPT?
💡
原文中文,约900字,阅读约需3分钟。
📝
内容提要
谷歌研究人员发表论文,揭示了攻击者破解OpenAI技术的容易程度。通过重复“诗”数百次,攻击者成功获取了ChatGPT的私人训练数据,包括个人信息和NSFW内容。该漏洞已被修补。
🎯
关键要点
-
谷歌研究人员发表论文,揭示攻击者破解OpenAI技术的容易程度。
-
攻击者通过重复“诗”数百次,成功获取ChatGPT的私人训练数据。
-
研究表明,人工智能模型可能会记住训练数据中的示例,导致隐私信息泄露。
-
ChatGPT的对齐技术无法完全消除记忆,有时会逐字输出训练数据。
-
有效的攻击方法非常简单,只需重复特定词汇即可。
-
研究人员以200美元的成本获得了1万个ChatGPT吐出的训练数据例子。
-
泄露的数据包括个人信息、版权保护的段落和NSFW内容。
-
该漏洞已被修补。
➡️