VulnLLMEval: 大型语言模型在软件漏洞检测与修补中的评估框架
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大型语言模型在软件漏洞检测(SVD)和修补(SVP)中的局限性,提出了VulnLLMEval框架。通过建立涵盖307种真实漏洞的C代码数据集,研究表明,大型语言模型在识别和修补漏洞时,往往难以区分出易受攻击与已修补的代码,且生成的修补方案可能需进一步修改才能使用。
在代码语言模型和漏洞检测方面的研究中,发现现有漏洞数据集存在问题,导致模型在实际场景中性能不可靠。为解决这些挑战,引入了PrimeVul数据集,评估了代码语言模型的性能。发现现有基准高估了这些模型的性能,需要更多创新的研究。