本文回顾了大型语言模型的安全性评估数据集,提出了GradSafe方法以检测不安全提示,并引入了SimpleSafetyTests测试套件,发现多个开源模型存在安全弱点。同时,研究分析了心理健康对话中的安全性,建立了多语言安全基准(XSafety),并提出了改进提示工程的方法以提高生成内容的安全性和质量。
完成下面两步后,将自动完成登录并继续当前操作。