本研究评估了语言模型在高风险困境中的判断能力,特别是在复杂价值冲突中的表现。通过引入CLASH数据集,揭示了语言模型在模糊决策和价值转变理解方面的不足,准确率不足50%,强调了改进的必要性。
完成下面两步后,将自动完成登录并继续当前操作。