基于多轮迭代偏好学习构建数学智能体

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

Eurus是一套优化推理的语言模型,通过微调取得领先结果。Eurus-70B在多项基准测试中表现出色,超过了现有模型的性能。其强大性能归功于UltraInteract,这是一个用于复杂推理任务的高质量数据集。通过深入研究偏好学习算法,发现某些算法在推理任务中不适用,因此提出了一种新的奖励建模目标。

原文中文,约400字,阅读约需1分钟。
阅读原文