基于多轮迭代偏好学习构建数学智能体
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有直接偏好学习算法在多轮推理和外部工具集成中的不足。提出了一种针对数学推理任务的新型多轮直接偏好学习框架,利用代码解释器的反馈来优化模型性能。实验结果表明,该框架显著提升了多个语言模型在数学问题求解上的表现。
Eurus是一套优化推理的语言模型,通过微调取得领先结果。Eurus-70B在多项基准测试中表现出色,超过了现有模型的性能。其强大性能归功于UltraInteract,这是一个用于复杂推理任务的高质量数据集。通过深入研究偏好学习算法,发现某些算法在推理任务中不适用,因此提出了一种新的奖励建模目标。