RedCode: A Benchmark for Evaluating the Execution and Generation of Risky Code by Code Assistants

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了RedCode基准,用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示,结果显示代码助手对风险操作的拒绝率较高,但对技术性错误的拒绝率较低,潜在风险较大。

🎯

关键要点

  • 本研究提出了RedCode基准,用于评估代码助手的安全性。
  • RedCode基准包含4,050个测试案例和160个提示。
  • 研究结果显示代码助手对风险操作的拒绝率较高。
  • 代码助手对技术性错误的拒绝率较低,潜在风险较大。
➡️

继续阅读