RedCode: A Benchmark for Evaluating the Execution and Generation of Risky Code by Code Assistants
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了RedCode基准,用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示,结果显示代码助手对风险操作的拒绝率较高,但对技术性错误的拒绝率较低,潜在风险较大。
🎯
关键要点
- 本研究提出了RedCode基准,用于评估代码助手的安全性。
- RedCode基准包含4,050个测试案例和160个提示。
- 研究结果显示代码助手对风险操作的拒绝率较高。
- 代码助手对技术性错误的拒绝率较低,潜在风险较大。
➡️