在科学问题评分中使用思维树上的优化偏好来校准 LLMs 生成理由
发表于: 。我们提出了一种新的框架,能够生成更加忠实的合理性解释,并且与基于分类器的黑盒评分系统的性能相匹配。我们通过查询大型语言模型产生思考树,并从每个思考树路径总结中间评估决策,以创建合成的理由数据和理由偏好数据,通过两步训练过程:有监督的微调和偏好优化,利用生成的合成数据来校准语言模型。广泛的实验结果表明,与先前的工作相比,我们的框架在 QWK 分数上提升了 38%...
我们提出了一种新的框架,能够生成更加忠实的合理性解释,并且与基于分类器的黑盒评分系统的性能相匹配。我们通过查询大型语言模型产生思考树,并从每个思考树路径总结中间评估决策,以创建合成的理由数据和理由偏好数据,通过两步训练过程:有监督的微调和偏好优化,利用生成的合成数据来校准语言模型。广泛的实验结果表明,与先前的工作相比,我们的框架在 QWK 分数上提升了 38%...