SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了SAS-Bench,这是一个为大语言模型设计的细粒度基准,旨在提高短答案评分的准确性。SAS-Bench提供逐步评分和专家注释的错误类别,解决了现有评分方法的粗粒度和推理不足的问题。
🎯
关键要点
- SAS-Bench是为大语言模型设计的细粒度基准,旨在提高短答案评分的准确性。
- 该基准提供逐步评分和专家注释的错误类别,解决了现有评分方法的粗粒度和推理不足的问题。
- SAS-Bench能够改进科学相关问题的评分准确性,为大语言模型的开发提供有价值的见解。
➡️