小红花·文摘

该文介绍了SOUL任务，旨在评估情感理解能力。通过标注一个包含15,028个陈述的新数据集，综合评估的结果显示，SOUL对于小型和大型语言模型而言都是一项具有挑战性的任务，性能差距高达27%。与人类专家和GPT-4进行的评估凸显了小型语言模型在生成基于推理的理由方面的局限性。这些发现突显了现有模型在SOUL任务上的挑战性质，强调了在情感分析中进一步提升以应对其复杂性的需求。