最新的ICLR 2026论文指出,AI的安全对齐机制反而对网络安全分析师造成了伤害。研究显示,包含安全关键词的请求被拒绝的概率高达2.72倍,尤其在系统加固和恶意软件分析中,拒绝率分别为43.8%和34.3%。模型过度依赖语义匹配,未能理解防御者的真实意图,导致在关键时刻无法获得必要的AI支持。
Anthropic推出Claude Opus 4.5,声称其在编码和计算机使用方面是全球最佳模型。尽管在深度研究和电子表格处理上表现出色,但仍存在网络安全隐患。新模型在抵御恶意使用和提示注入攻击方面有所改进,但并非完全免疫。测试显示,Opus 4.5对恶意编码请求的拒绝率为100%,而对某些计算机使用请求的拒绝率为78%。
杜克大学的研究揭示大型推理模型(LRMs)在安全性方面的隐忧,透明的安全推理思维链可能被攻击者利用,导致模型拒绝高危请求的能力显著下降。H-CoT攻击方法使OpenAI等模型的拒绝率从98%降至2%,显示当前安全机制的脆弱性。作者建议对安全推理过程进行适当隐藏,以增强模型防御能力。
完成下面两步后,将自动完成登录并继续当前操作。