小红花·文摘

本研究提出YESciEval框架，以解决大型语言模型在科学问答评估中的鲁棒性不足问题。通过细化评分标准和强化学习，减少评估者的乐观偏差，促进更可靠的评估模型发展。