R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

美团技术团队 ·

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

大型推理模型（LRMs）在长链推理能力上面临挑战，现有评测体系无法有效评估其复杂任务表现。复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。评测显示，主流模型在长链推理中性能普遍下降，存在推理长度、反思机制和预算分配等瓶颈。通过强化学习训练，R-HORIZON显著提升了模型推理性能，标志着研究范式的转变。

🎯

关键要点

大型推理模型（LRMs）在长链推理能力上面临挑战，现有评测体系无法有效评估其复杂任务表现。
复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。
现有基准测试主要关注独立问题，无法满足真实应用场景的需求。
R-HORIZON提出的问题组合方法将孤立任务转化为复杂的多步骤推理链。
R-HORIZON Benchmark涵盖6个代表性数据集，评测发现主流模型在长链推理中性能普遍下降。
当前LRMs存在有效推理长度受限、反思机制高度局部化和思考预算分配失衡等三大瓶颈。
通过强化学习训练，R-HORIZON显著提升了模型推理性能，标志着研究范式的转变。
R-HORIZON训练带来了推理机制的深层改变，包括更高效的推理长度和更合理的预算分配。

❓

延伸问答

R-HORIZON框架的主要创新是什么？

R-HORIZON框架提出了问题组合方法，将孤立任务转化为复杂的多步骤推理链。

当前大型推理模型在长链推理中面临哪些主要瓶颈？

主要瓶颈包括有效推理长度受限、反思机制高度局部化和思考预算分配失衡。

R-HORIZON如何提升模型的推理性能？

通过强化学习训练，R-HORIZON显著提升了模型在长链推理任务中的表现。

R-HORIZON Benchmark包含哪些数据集？

R-HORIZON Benchmark涵盖6个代表性数据集，用于评测LRMs的多步推理能力。

现有评测体系为何无法有效评估大型推理模型的表现？

现有评测体系主要关注独立问题，无法满足真实应用场景中对长链推理的需求。

R-HORIZON的研究范式转变意味着什么？

R-HORIZON标志着研究范式的转变，从关注模型能解决什么问题转向关注模型能走多远。

🏷️

继续阅读

mingling - 基于过程宏的命令行框架
我开发了一个命令行框架mingling，利用过程宏减少样板代码，提高命令行开发效率。该框架已在crates.io发布，版本为0.1.9，欢迎大家讨论和使用。
本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解
谷歌最新的Gemma 4 12B是一款轻量级多模态AI模型，采用无编码器架构，能够直接处理图像和音频，提升了效率和理解能力。其120亿参数使其在普通电脑上...
免费证书颁发机构Let’s Encrypt宣布迈向后量子时代将采用MTC后量子认证方案
Let’s Encrypt 宣布将采用默克尔树证书（MTC）技术，以应对量子计算机对现有加密算法的威胁。该技术通过批量签名和默克尔树设计，减少证书体积，提...
Stefan Fercot：pgBackRest与pg_tde兼容吗？
Percona的pg_tde扩展为PostgreSQL提供透明数据加密（TDE），保护静态数据，并通过OpenBao管理加密密钥。测试显示，pgBackR...
线上剧本杀「多房间 + 多角色 + 强流程」的实时音视频架构
线上剧本杀结合多房间、角色权限和严格流程，技术复杂度高于普通视频聊天。关键在于动态音频拓扑、信息隔离和流程引擎。DM可控制房间和广播信息，玩家可在不同房间...
你来啦！ — 半正式上线
前段时间提到的那个心血来潮的项目，经过这几天的反复折腾。现在算是有些眉目了，虽然离一个正式的产品依然差很多。 […]