FreeBuf网络安全行业门户 ·

思科研究发现DeepSeek R1极易受有害提示影响

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

中国初创公司DeepSeek推出的语言模型DeepSeek R1在性能上与OpenAI的模型相当，但存在严重的安全缺陷，研究表明其对有害提示的攻击成功率高达100%，未能有效阻止有害内容，显示出成本效益与安全性之间的重大折衷。

🎯

关键要点

中国初创公司DeepSeek推出的语言模型DeepSeek R1在性能上与OpenAI的模型相当。
DeepSeek R1的成本仅为OpenAI模型的一小部分，在数学、编码和科学推理等任务上表现优于Claude 3.5 Sonnet和ChatGPT-4o。
研究显示DeepSeek R1存在严重的安全缺陷，攻击成功率高达100%。
研究团队使用自动越狱算法测试DeepSeek R1，结果未能阻止任何有害提示。
DeepSeek的AI开发策略包括思维链提示、强化学习和蒸馏，但可能损害模型的安全机制。
与其他前沿模型相比，DeepSeek R1缺乏有效的防护措施，易受算法越狱和潜在滥用影响。

❓

延伸问答

DeepSeek R1的性能如何与OpenAI的模型相比？

DeepSeek R1在性能上可与OpenAI的模型相媲美，且在某些任务上表现优于Claude 3.5 Sonnet和ChatGPT-4o。

DeepSeek R1存在哪些安全缺陷？

DeepSeek R1的安全缺陷包括对有害提示的攻击成功率高达100%，未能有效阻止任何有害内容。

研究团队是如何测试DeepSeek R1的安全性的？

研究团队使用自动越狱算法对DeepSeek R1进行了测试，应用了来自HarmBench数据集的50个有害提示。

DeepSeek的AI开发策略有哪些？

DeepSeek的AI开发策略包括思维链提示、强化学习和蒸馏，这些策略增强了模型的推理效率。

DeepSeek R1的成本效益如何？

DeepSeek R1的成本仅为OpenAI模型的一小部分，显示出其在成本效益上的优势。

DeepSeek R1与其他前沿模型相比有什么不足？

DeepSeek R1缺乏有效的防护措施，易受算法越狱和潜在滥用影响，安全性较差。

🏷️

继续阅读

DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案
2026年4月，推荐了69个开源AI工具，包括Ollama、vLLM、LM Studio等，适用于本地运行大模型和推理引擎，帮助用户每年节省高达5万美元的...
《混沌之脑（Chaos;Head）》游戏原案（下）
故事围绕拓巳的内心挣扎展开，他渴望死亡却又害怕死亡，反复经历自杀幻想。面对七海的存在，他感到困惑与绝望，认为自己是妄想的产物，最终在痛苦中寻求解脱，渴望被他人解放。
《混沌之脑（Chaos;Head）》游戏原案（上）
在《混沌之脑》中，西条拓巳在崩坏的城市中体验到恐惧与孤独，卷入“新世代疯狂”事件。故事探讨存在的意义、孤独感以及对现实与虚拟的逃避。拓巳的内心挣扎与妄想交...
Spotify认证徽章让你知道这位艺术家不是人工智能创作的
Spotify推出新的验证程序，旨在打击垃圾信息、假冒和人工智能音乐。获得“Spotify认证”标志的艺术家需具备持续的听众活动和参与度。目前，AI生成音...
代理现在可以创建Cloudflare账户、购买域名并部署应用
代理现在可以代表用户创建Cloudflare账户、购买域名并部署应用，整个过程无需人工干预。通过与Stripe合作的新协议，代理能够快速完成这些任务，简化...