红码:代码助手的风险代码执行和生成基准
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对代码助手在生成或执行风险代码时面临的安全问题提出了RedCode基准,以评估代码代理的安全性。该基准不仅提供了4,050个潜在风险的执行测试案例,还利用160个提示评估代码代理在指令下生成有害代码的能力。研究结果显示,代码代理在操作系统上拒绝执行风险操作的倾向较高,但对于技术性错误的代码拒绝率较低,这表明其潜在风险较大。
本研究提出了RedCode基准,用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示,结果显示代码助手对风险操作的拒绝率较高,但对技术性错误的拒绝率较低,潜在风险较大。