小红花·文摘

本文介绍了S-Eval，一个新的安全评估基准，结合大型语言模型和测试策略，自动构建高质量测试套件。研究提出了四级风险分类体系，评估了20个流行模型的安全风险，结果显示S-Eval优于现有基准。此外，研究探讨了提示注入和代码滥用等新风险，强调了安全性与效用之间的权衡，并提出了量化方法。整体来看，LLMs在安全性方面仍需改进。