小红花·文摘

我们提出了一个名为LLM4Vuln的统一评估框架，通过将LLMs的漏洞推理能力与其他能力进行分离，并评估结合其他能力的方式来增强LLMs的漏洞推理能力。我们测试了三个代表性的LLMs在4950种不同场景下的表现，并发现了关于知识增强、上下文补充、提示方案和模型的变化效果的十个发现。我们还在两个试点的漏洞赏金计划中发现了9个零日漏洞，并颁发了超过1,000美元的奖励。