小红花·文摘

本研究评估了8个语言模型在27个关键风险场景上的表现，发现GPT-4模型在风险评估得分方面为72.29%，显示了提高语言模型对风险意识的潜力。同时，利用风险描述作为环境反馈显著提高了模型的性能。通过设计有效的安全分析技术和深入的案例研究，有助于判断安全风险并促进未来研究。