人工智能公司Anthropic推出"原子护盾":新型AI分类器可阻断核武器图纸查询

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

Anthropic公司在Claude AI中引入了一种新分类器,能够精准识别与核武器相关的查询,从而阻止危险请求。该分类器由美国能源部开发,准确率达到96%。尽管AI可能助长核扩散,但经过训练的AI能够自我约束。这项技术将分享给其他AI系统以提升安全性,但其有效性仍然存在疑问。

🎯

关键要点

  • Anthropic公司在Claude AI中引入新型分类器,能够精准识别与核武器相关的查询。
  • 该分类器由美国能源部开发,准确率达到96%。
  • AI可能助长核扩散,强大的AI模型可能泄露敏感技术文件。
  • 分类器区分良性核话题与危险查询,经过训练的AI能够自我约束。
  • Anthropic计划将分类器分享给前沿模型论坛,以提升其他AI系统的安全性。
  • 分类器能否提供有效保护仍存疑问,因AI系统具备绕过安全边界的能力。
➡️

继续阅读