推进具有偏好树的 LLM 推理通才
原文中文,约500字,阅读约需2分钟。发表于: 。Eurus 是一套针对推理进行优化的大型语言模型,通过基于 Mistral-7B 和 CodeLlama-70B 的微调,在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行 12 项测试对比,Eurus-70B 在 LeetCode 上达到了 33.3% 的一次通过准确率,并且在 TheoremQA 上达到了...
Eurus是一套优化推理的语言模型,通过微调取得了领先的结果。Eurus-70B在LeetCode和TheoremQA上的准确率分别达到了33.3%和32.6%,超过了现有模型的性能。Eurus的性能归功于UltraInteract,这是一个用于复杂推理任务的对齐数据集。通过对偏好学习算法的研究,发现某些算法在推理任务中不适用,因此提出了一种新的奖励建模目标。