小红花·文摘

本文回顾了大型语言模型的安全性评估数据集，提出了GradSafe方法以检测不安全提示，并引入了SimpleSafetyTests测试套件，发现多个开源模型存在安全弱点。同时，研究分析了心理健康对话中的安全性，建立了多语言安全基准（XSafety），并提出了改进提示工程的方法以提高生成内容的安全性和质量。