小红花·文摘

本研究评估了语言模型在高风险困境中的判断能力，特别是在复杂价值冲突中的表现。通过引入CLASH数据集，揭示了语言模型在模糊决策和价值转变理解方面的不足，准确率不足50%，强调了改进的必要性。