Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种自动评估框架,用于检测定制GPT模型的安全和合规性风险。分析结果显示,58.7%的模型存在不合规问题,为提升聊天机器人平台的安全性提供了依据。
🎯
关键要点
-
本研究提出了一种可扩展的自动评估框架,用于检测定制GPT模型的安全和合规性风险。
-
该框架通过自动发现模型、生成针对特定政策的红队提示,并运用LLM作为评审者进行分析。
-
在782个定制GPT模型中,发现58.7%的模型存在不合规问题。
-
研究结果为提升聊天机器人平台的安全性提供了重要依据。
🏷️