Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种自动评估框架,用于检测定制GPT模型的安全和合规性风险。分析结果显示,58.7%的模型存在不合规问题,为提升聊天机器人平台的安全性提供了依据。
🎯
关键要点
- 本研究提出了一种可扩展的自动评估框架,用于检测定制GPT模型的安全和合规性风险。
- 该框架通过自动发现模型、生成针对特定政策的红队提示,并运用LLM作为评审者进行分析。
- 在782个定制GPT模型中,发现58.7%的模型存在不合规问题。
- 研究结果为提升聊天机器人平台的安全性提供了重要依据。
➡️