本研究提出了RedCode基准,用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示,结果显示代码助手对风险操作的拒绝率较高,但对技术性错误的拒绝率较低,潜在风险较大。
完成下面两步后,将自动完成登录并继续当前操作。