FreeBuf网络安全行业门户 ·

人工智能公司Anthropic推出"原子护盾"：新型AI分类器可阻断核武器图纸查询

💡 原文中文，约900字，阅读约需3分钟。

📝

内容提要

Anthropic公司在Claude AI中引入了一种新分类器，能够精准识别与核武器相关的查询，从而阻止危险请求。该分类器由美国能源部开发，准确率达到96%。尽管AI可能助长核扩散，但经过训练的AI能够自我约束。这项技术将分享给其他AI系统以提升安全性，但其有效性仍然存在疑问。

🎯

关键要点

Anthropic公司在Claude AI中引入新型分类器，能够精准识别与核武器相关的查询。
该分类器由美国能源部开发，准确率达到96%。
AI可能助长核扩散，强大的AI模型可能泄露敏感技术文件。
分类器区分良性核话题与危险查询，经过训练的AI能够自我约束。
Anthropic计划将分类器分享给前沿模型论坛，以提升其他AI系统的安全性。
分类器能否提供有效保护仍存疑问，因AI系统具备绕过安全边界的能力。

🏷️

继续阅读

OpenAI GPT-5.4发布，AI迎来就业报告，Anthropic在美国禁令后激增
Anthropic的新研究提出了“观察到的曝光”指标，结合理论LLM能力与实际使用数据。结果显示，AI尚未达到理论能力，实际任务覆盖率远低于可行范围。程序...
央视点赞千问APP，“AI办事”让人工智能走进日常生活
央视点赞千问APP，推动AI办事进入日常生活。该APP通过语音交互满足个性化需求，受到大众，尤其是老年群体的欢迎。春节期间，1.3亿人体验AI下单，显示中...
从原始数值识别嵌入模型
嵌入向量中的数字模式显著影响生成模型和推理指令。我们训练了一个小型变换器分类器，准确率达到87%。可以实时演示，粘贴任意嵌入向量以查看分类结果。
15.68 万元买 D 级车！丰田铂智 7 这次真想通了
2025年，合资品牌电动车迎来转折，广丰铂智3X销量突破7万辆，打破智能化刻板印象。铂智7预售价15.68万元，设计更具攻击性，搭载华为鸿蒙座舱与激光雷达...
从第一位程序员到 AI 时代的领航者：代码世界里的“她”力量
文章探讨了女性在计算机科学历史中的重要角色，强调她们在编程领域的贡献。尽管早期编程被视为女性工作，但随着行业发展，女性比例逐渐下降。提到Ada Lovel...
NanoClaw可以将每个AI代理放入自己的Docker容器中，以应对OpenClaw的安全问题
机器人访问WhatsApp面临挑战。大多数OpenClaw用户使用WhatsApp，但没有商业账户无法创建新用户。WhatsApp连接依赖于Baileys...

人工智能公司Anthropic推出"原子护盾"：新型AI分类器可阻断核武器图纸查询

内容提要

关键要点

标签

继续阅读