小红花·文摘

本文介绍了针对中文大型语言模型（LLM）的安全评估基准S-Eval，涵盖多种风险类型并提供灵活配置。研究发现区域特定风险是主要问题，并通过实验验证了不同模型的安全性表现。此外，开发了JADE平台以生成高风险问题测试模型的安全性，结果显示当前LLM在识别恶意内容方面存在不足。