小红花·文摘

本研究提出了RedCode基准，用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示，结果显示代码助手对风险操作的拒绝率较高，但对技术性错误的拒绝率较低，潜在风险较大。

BriefGPT - AI 论文速递 ·

该文介绍了LLM模型在代码生成、代码理解和分析能力方面的应用，以及对校验需求推断的能力。通过实例展示了LLM模型在识别和修复风险代码方面的能力，并讨论了解决不同类型风险代码和自身语言逻辑解释SFT任务的挑战。最后，指出了LLM技术在安全领域的应用前景，并欢迎技术交流讨论。

FreeBuf网络安全行业门户 ·