小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架

大型推理模型(LRMs)在长链推理能力上面临挑战,现有评测体系无法有效评估其复杂任务表现。复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。评测显示,主流模型在长链推理中性能普遍下降,存在推理长度、反思机制和预算分配等瓶颈。通过强化学习训练,R-HORIZON显著提升了模型推理性能,标志着研究范式的转变。

R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架

美团技术团队
美团技术团队 · 2025-11-28T00:00:00Z

研究发现,长链推理中的反思并非纠错,而是加重幻觉。北京邮电大学的团队指出,推理链越长,错误越容易固化,尤其在高风险领域。目前的检测方法效果不佳,难以有效识别和修正幻觉。

大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮

量子位
量子位 · 2025-07-03T06:35:03Z
通过强化学习实现大型语言模型的交替推理

长链推理提升了大型语言模型的推理能力,但效率低下且首次生成时间增加。我们提出了一种新训练方法,通过强化学习引导模型交替思考与回答多步问题。实验结果显示,该方法平均减少首次生成时间80%,并提高Pass@1准确率19.3%。

通过强化学习实现大型语言模型的交替推理

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-28T00:00:00Z

本研究提出了一种新颖的数据标注方法,解决了现有过程奖励模型在长链推理中仅关注初始错误的问题。通过引入错误传播和终止概念,显著提升了模型在自我纠正和推理方面的性能,实验结果优于现有模型。

Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了海姆达尔模型,旨在提升大语言模型在长链推理中的验证能力。通过纯强化学习,验证准确率从62.5%提升至94.5%,并在重复采样后达到97.5%。该模型在复杂数学问题上表现优异,并可通过悲观验证方法增强其解决能力。

Heimdall: Test-Time Scaling in Generative Verification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出VAPO框架,解决了价值基础强化学习在长链推理中的局限性,有效应对模型偏差、序列长度和奖励稀疏问题,在AIME 2024数据集上取得了60.4的最佳成绩。

VAPO: 高效可靠的强化学习框架用于高级推理任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究引入SafeChain安全训练数据集,解决了大型推理模型在长链推理中的不安全输出问题,提升了模型的安全性和性能。

SafeChain:具有长链推理能力的语言模型的安全性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究分析了大型语言模型在复杂推理中的表现,强调长链推理结构的重要性,发现单个推理步骤的内容影响较小,为未来模型训练提供了指导。

大型语言模型可以轻松学习通过演示进行推理:结构而非内容才是关键!

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
多智能体架构Insight-V来了!突破长链视觉推理瓶颈

南洋理工大学、腾讯和清华大学的研究提出了多模态模型Insight-V,旨在提升视觉推理能力。该模型通过生成高质量推理数据和多智能体系统,显著改善了长链推理效果,超越了现有模型,推动了多模态视觉推理的发展。

多智能体架构Insight-V来了!突破长链视觉推理瓶颈

机器之心
机器之心 · 2024-12-13T05:26:24Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码