Phare:大型语言模型的安全探测器

📝

内容提要

本研究针对大型语言模型的安全性评估存在性能优先于识别失效模式的研究空白,提出了多语言诊断框架Phare,专注于幻觉与可靠性、社会偏见及有害内容生成三个关键维度的评估。通过对17种最先进的语言模型的评估,发现了系统性脆弱性模式,提供了研究人员和实践者可行的见解,以构建更加稳健、对齐且可信的语言系统。

🏷️

标签

➡️

继续阅读