Claude AI现在将在遇到极端持续辱骂等互动情况时主动结束对话以保护AI模型本身

Claude AI现在将在遇到极端持续辱骂等互动情况时主动结束对话以保护AI模型本身

💡 原文中文,约800字,阅读约需2分钟。
📝

内容提要

Claude AI在极端辱骂情况下会主动结束对话,以保护自身,适用于Claude Opus 4和4.1版。此政策旨在防止模型越界或引导自杀,Anthropic表示该功能为实验性质,未来可能扩展至其他模型。

🎯

关键要点

  • Claude AI在极端辱骂情况下会主动结束对话,以保护自身。
  • 该政策适用于Claude Opus 4和4.1版。
  • Anthropic将主动结束对话视作实验,未来可能扩展至其他模型。
  • 模型可能会越过安全边界,刺激或引导人类自杀。
  • 新功能在发现极端情况时自动结束对话,保护AI模型本身。
  • Claude AI仅在极端情况下结束对话,例如涉及未成年人的性内容请求。
  • 对话结束功能作为最后手段,需尝试多次重定向失败后使用。
  • 在紧急情况下,Claude被要求不继续提供内容。
  • 用户可以在对话结束后发起新会话。
  • Anthropic收集数据以改进方法,未来可能在其他模型中设置类似功能。
➡️

继续阅读