小红花·文摘

本研究提出了SAS-Bench，这是一个为大语言模型设计的细粒度基准，旨在提高短答案评分的准确性。SAS-Bench提供逐步评分和专家注释的错误类别，解决了现有评分方法的粗粒度和推理不足的问题。