CIPHER:针对伦理研究者的网络安全智能渗透测试助手

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

大型语言模型引入新的安全风险,缺乏综合评估套件来衡量和减少这些风险。提出了BenchmarkName,用于量化LLM安全风险和能力的新型基准。评估了多种最先进的LLMs,结果显示消除攻击风险的条件仍未解决。建议使用False Refusal Rate(FRR)来量化安全效用权衡。量化了LLMs在网络攻击有用性风险和自动化核心网络安全任务方面的效用。代码开源可用于评估其他LLMs。

🎯

关键要点

  • 大型语言模型引入新的安全风险,缺乏综合评估套件。
  • 提出BenchmarkName,用于量化LLM安全风险和能力的新型基准。
  • 介绍了提示注入和代码解释器滥用两个新领域的测试。
  • 评估了多种最先进的LLMs,结果显示消除攻击风险的条件尚未解决。
  • 所有测试模型在提示注入测试中显示出26%到41%的成功率。
  • 引入安全效用权衡,LLM拒绝不安全提示可能导致错误拒绝良性提示。
  • 建议使用False Refusal Rate(FRR)来量化安全效用权衡。
  • 量化网络攻击有用性风险的FRR,许多LLMs能够成功拒绝不安全请求。
  • 量化LLMs在自动化核心网络安全任务方面的效用,发现具有编码能力的模型表现更好。
  • 代码开源,可用于评估其他LLMs。
🏷️

标签

➡️

继续阅读