小红花·文摘 - 小红花技术领袖俱乐部

选择GRC工具：四步路线图

选择GRC工具：四步路线图

The New Stack ·

本文介绍了针对中文大型语言模型（LLM）的安全评估基准S-Eval，涵盖多种风险类型并提供灵活配置。研究发现区域特定风险是主要问题，并通过实验验证了不同模型的安全性表现。此外，开发了JADE平台以生成高风险问题测试模型的安全性，结果显示当前LLM在识别恶意内容方面存在不足。

SAFETY-J: 评估安全性的批判方法

BriefGPT - AI 论文速递 ·

本文探讨了中文大型语言模型（LLM）的安全性评估，提出了针对不同风险类型的评估标准，并开发了多语言安全基准（XSafety）。研究发现区域特定风险是主要问题，许多开源模型存在安全弱点。通过引入新的测试套件和细致标注的数据集，显著提高了模型的安全性，建议开发者加强系统提示以降低风险。

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

BriefGPT - AI 论文速递 ·