Aegis2.0:多样化的人工智能安全数据集和对齐风险分类法,以便为大型语言模型护栏提供支持

📝

内容提要

本研究解决了大型语言模型(LLMs)相关的安全风险方面缺乏高质量人类标注数据集的问题。我们提出了一种全面且适应性强的风险分类法,并使用混合数据生成管道创建了Aegis 2.0数据集,包含34,248个经过注释的人机交互样本。最重要的发现显示,多种轻量级模型在使用Aegis 2.0训练后能够在安全性表现上与主流模型相媲美,为LLMs的安全防护提供了有效解决方案。

➡️

继续阅读