小红花·文摘

本研究使用R-Judge评估8种语言模型在27个风险场景中的表现。GPT-4的风险评估得分为72.29%，低于人类的89.38%，显示出提升风险意识的潜力。通过风险描述反馈显著提高模型性能，强调安全风险反馈的重要性。研究还通过安全分析技术和案例研究促进未来研究。