你能信任你的指标吗?基于自动连接的指标有效性测试
原文中文,约500字,阅读约需1分钟。发表于: 。本研究针对现有有害性检测指标在评估大型语言模型生成的响应时存在的决策翻转现象进行探讨。当对单个提示-响应对进行分析时,指标表现良好,但连接后却产生错误分类。我们提出了一种自动连接测试的方法,以评估指标的有效性,并发现当前的多个有害性检测指标存在不一致性,影响其可靠性。
大型语言模型的快速发展使得开源和开放获取的模型成为专有模型的替代选择。然而,缺乏适当的引导和保障,大型语言模型容易产生安全风险。我们提出了SimpleSafetyTests测试套件,用于鉴定大型语言模型的安全风险。测试结果显示,11个受欢迎的开源大型语言模型中有几个存在重大的安全弱点。我们建议开发者将系统提示作为防范安全风险的第一层防线。