本文介绍了针对中文大型语言模型(LLM)的安全评估基准S-Eval,涵盖多种风险类型并提供灵活配置。研究发现区域特定风险是主要问题,并通过实验验证了不同模型的安全性表现。此外,开发了JADE平台以生成高风险问题测试模型的安全性,结果显示当前LLM在识别恶意内容方面存在不足。
完成下面两步后,将自动完成登录并继续当前操作。