小红花·文摘 - 小红花技术领袖俱乐部

一分钟读论文：《安全对齐的副作用：AI 为何拒绝帮助网络防御者》

一分钟读论文：《安全对齐的副作用：AI 为何拒绝帮助网络防御者》

Micropaper ·

Anthropic的新模型是其在AI代理战中的最新前沿——但仍面临网络安全隐患

Anthropic的新模型是其在AI代理战中的最新前沿——但仍面临网络安全隐患

The Verge ·

攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

机器之心 ·