小红花·文摘

本文提出了S-Eval，一个全面的安全评估基准，结合大型语言模型和测试策略，自动构建高质量测试套件。研究表明，S-Eval在评估大型语言模型的安全风险方面优于现有基准，强调了标准化方法和伦理指南的重要性，并发现许多模型在安全性和效用之间存在矛盾。