迈向自动化渗透测试:引入LLM基准、分析与改进
原文中文,约600字,阅读约需2分钟。发表于: 。本研究解决了当前缺乏全面、开放的自动化渗透测试基准的问题,提出了一种针对基于大语言模型的自动化渗透测试的新基准。通过对GPT-4o和Llama 3.1-405B的评估,发现后者在性能上优于前者,但两者仍未完全实现自动化渗透测试。此研究为AI辅助网络安全领域提供了重要洞见,并为未来的自动化渗透测试研究奠定了基础。
大型语言模型(LLM)引入了新的安全风险,缺乏有效的评估工具。我们提出了BenchmarkName,用于评估提示注入和代码滥用。测试结果显示,攻击风险仍未得到解决,FRR量化了安全效用的权衡。许多LLM能够拒绝不安全请求,同时处理良性请求。编码能力模型的表现优于无编码模型,但仍需进一步改进。我们的代码已开源,供其他LLM评估使用。