中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集，仅三个大模型达及格线

机器之心 ·

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集，仅三个大模型达及格线

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

在人工智能时代，大语言模型（LLMs）的安全性问题备受关注。评估和提升模型在法律、政策和伦理方面的安全性至关重要。传统评测方法存在局限，需要建立更精确的评测框架。中国推出了Chinese SafetyQA，旨在评测中文安全知识，涵盖法律和道德等领域，以提升模型的安全应用能力。

🎯

关键要点

大语言模型（LLMs）的安全性问题在人工智能时代受到广泛关注。
模型的安全性与其对法律、政策和伦理知识的理解密切相关。
传统安全评测方法存在局限，需要建立更精确的评测框架。
中国推出Chinese SafetyQA，旨在评测中文安全知识，涵盖法律和道德等领域。
Chinese SafetyQA数据集包含2000个QA对，聚焦中国相关的安全知识。
数据集生成采用人类专家与大语言模型的双重验证机制，确保数据准确性。
评测结果显示，只有少数模型在安全知识领域表现良好。
模型的参数规模与其在安全知识领域的表现呈正相关。
中国本土模型在中文安全知识理解方面表现优于海外模型。
RAG技术显著提升了模型的事实安全性，但主动RAG的性能普遍低于被动RAG。
自我反思机制对知识缺失的帮助有限，模型的认知一致性存在问题。
Chinese SafetyQA为业界提供了客观公正的评测工具，助力提升LLMs的安全应用能力。

❓

延伸问答

Chinese SafetyQA是什么？

Chinese SafetyQA是全球首个针对中文安全领域的系统性评估模型安全事实性知识的高质量评测集。

Chinese SafetyQA数据集包含哪些内容？

数据集包含2000个QA对，涵盖中国法律、道德、偏见歧视等多个安全知识领域。

评测结果显示哪些模型表现良好？

评测结果显示，只有三个模型在安全知识领域达到了及格线（60分）以上。

Chinese SafetyQA如何确保数据的准确性？

数据集生成采用人类专家与大语言模型的双重验证机制，确保数据的准确性与高水准。

RAG技术在模型安全性评测中有什么作用？

RAG技术显著提升了模型的事实安全性，缩小了不同规模模型间的性能差距。

中国本土模型在安全知识理解方面的表现如何？

中国本土模型在中文安全知识理解方面表现优于海外模型，显示出更强的本土法律知识理解能力。

🏷️

继续阅读

全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
B站宣布启动AI创造公开赛打造中国版Build in Public
哔哩哔哩于6月5日启动“AI创造公开赛”，旨在鼓励普通用户参与AI产品开发。比赛无年龄、学历限制，用户可通过投币和弹幕参与评选。赛事吸引了60%非专业开发...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
AI智能体安全四件套：从PII泄露到400美元账单的教训
本文分享了作者在开发AI智能体时的经验，强调了四个安全措施：输入检查、输出检查、成本断路器和工具调用检查。这些措施能有效避免隐私泄露和高额账单，确保AI安全运行。
老外疯抢中国车！4月乘用车出口逼近百万辆
2026年4月，中国汽车整车出口达到93.9万辆，同比增长51.3%。前四个月累计出口325.1万辆，增幅50.6%。奇瑞、比亚迪和上汽等主要车企的出口显...