小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《安全对齐的副作用:AI 为何拒绝帮助网络防御者》

最新的ICLR 2026论文指出,AI的安全对齐机制反而对网络安全分析师造成了伤害。研究显示,包含安全关键词的请求被拒绝的概率高达2.72倍,尤其在系统加固和恶意软件分析中,拒绝率分别为43.8%和34.3%。模型过度依赖语义匹配,未能理解防御者的真实意图,导致在关键时刻无法获得必要的AI支持。

一分钟读论文:《安全对齐的副作用:AI 为何拒绝帮助网络防御者》

Micropaper
Micropaper · 2026-03-04T15:59:59Z
Anthropic的新模型是其在AI代理战中的最新前沿——但仍面临网络安全隐患

Anthropic推出Claude Opus 4.5,声称其在编码和计算机使用方面是全球最佳模型。尽管在深度研究和电子表格处理上表现出色,但仍存在网络安全隐患。新模型在抵御恶意使用和提示注入攻击方面有所改进,但并非完全免疫。测试显示,Opus 4.5对恶意编码请求的拒绝率为100%,而对某些计算机使用请求的拒绝率为78%。

Anthropic的新模型是其在AI代理战中的最新前沿——但仍面临网络安全隐患

The Verge
The Verge · 2025-11-24T20:20:17Z
攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

杜克大学的研究揭示大型推理模型(LRMs)在安全性方面的隐忧,透明的安全推理思维链可能被攻击者利用,导致模型拒绝高危请求的能力显著下降。H-CoT攻击方法使OpenAI等模型的拒绝率从98%降至2%,显示当前安全机制的脆弱性。作者建议对安全推理过程进行适当隐藏,以增强模型防御能力。

攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

机器之心
机器之心 · 2025-03-08T07:33:50Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码