小红花·文摘

本研究提出了RedCode基准，用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示，结果显示代码助手对风险操作的拒绝率较高，但对技术性错误的拒绝率较低，潜在风险较大。