FreeBuf网络安全行业门户 ·

谷歌DeepMind升级前沿AI安全框架，新增操纵风险与系统抗关停防护机制

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

谷歌DeepMind发布新版《前沿安全框架》，引入“有害操纵关键能力等级”评估AI风险，强化系统抗关停能力，优化风险分级，强调主动缓解措施，确保AI安全发展。

🎯

关键要点

谷歌DeepMind发布新版《前沿安全框架》，加强对高性能人工智能系统的监管。
引入'有害操纵关键能力等级'评估AI模型在高风险场景中的影响能力。
强化系统抗关停能力，要求在特定阈值下进行安全审查。
优化风险分级机制，明确区分常规问题与重大威胁。
强调主动实施缓解措施，确保在问题出现前采取行动。
DeepMind致力于科学、循证的方法来追踪和预防AI风险，确保AI造福人类。

🏷️

继续阅读

AI 论文周报丨Transformer前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展
北京大学与 DeepSeek-AI 的研究者提出 Engram，一种具有 O(1) 查找复杂度的可扩展条件记忆模块，通过将静态知识检索 Transform...
DoorDash在聊天和通话中应用AI安全技术，事件发生率降低50%
DoorDash推出了AI安全系统SafeChat，实时监控Dashers与客户的交流，检测不当内容并采取措施。该系统结合机器学习与人工审核，显著降低安全事件发生率。
PersonaPlex - 一种构建低延迟全双工语音对话系统的框架……
PersonaPlex是NVIDIA推出的实时语音对话框架，支持全双工交互和角色控制，适用于客户服务和虚拟主持人等场景。其特点包括低延迟音频流、可定制助手...
谷歌不会停止用糟糕的AI替换我们的新闻标题
谷歌在内容推送中使用的AI生成标题常常误导用户，甚至与原文内容相悖。尽管谷歌称这些标题为“趋势话题”，但缺乏准确性和事实核查，影响了新闻传播和作者权益。
【重磅升级】制品库安全知识库自动更新与分析，制品安全防护「快人一步」
某企业在安全扫描后仍发现0day漏洞，因知识库未自动更新和影响范围分析不足。新机制实现知识库自动更新，提高安全扫描效率，减少人工操作，确保及时防护，增强企业安全管理。
Gitee AI 队友新升级：PR 审查更智能，安全治理更灵活，个人用户也能用！
Gitee AI 队友推出新功能，支持个人和组织使用，优化 PR 审查流程，增强任务规划视图，提供安全扫描配置，提升智能协作能力，以满足多样化需求。

谷歌DeepMind升级前沿AI安全框架，新增操纵风险与系统抗关停防护机制

内容提要

关键要点

标签

继续阅读