基于多轮迭代偏好学习构建数学智能体
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
Eurus是一套优化推理的语言模型,通过微调取得领先结果。Eurus-70B在多项基准测试中表现出色,超过了现有模型的性能。其强大性能归功于UltraInteract,这是一个用于复杂推理任务的高质量数据集。通过深入研究偏好学习算法,发现某些算法在推理任务中不适用,因此提出了一种新的奖励建模目标。
🎯
关键要点
-
Eurus是一套针对推理进行优化的大型语言模型。
-
Eurus-70B在数学、代码生成和逻辑推理问题的多项基准测试中取得领先结果。
-
在LeetCode上,Eurus-70B达到了33.3%的一次通过准确率。
-
在TheoremQA上,Eurus-70B达到了32.6%的准确率,超过现有开源模型13.3%以上的性能。
-
Eurus的强大性能归功于UltraInteract,这是一个为复杂推理任务设计的高质量数据集。
-
通过对偏好学习算法的研究,发现某些算法在推理任务中的适用性较差。
-
提出了一种新颖的奖励建模目标,与UltraInteract结合使用可获得强大的奖励模型。
➡️