小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架

大型推理模型(LRMs)在长链推理能力上面临挑战,现有评测体系无法有效评估其复杂任务表现。复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。评测显示,主流模型在长链推理中性能普遍下降,存在推理长度、反思机制和预算分配等瓶颈。通过强化学习训练,R-HORIZON显著提升了模型推理性能,标志着研究范式的转变。

R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架

美团技术团队
美团技术团队 · 2025-11-28T00:00:00Z
TASER:通过系统评估和推理进行翻译质量评估

TASER是一种利用大型推理模型进行自动翻译质量评估的指标,展示了在WMT24指标共享任务中的优越性能,尤其在非参考方法中排名第一。研究表明,结构化提示模板在LRMs中效果更佳,提升了可解释性和透明度,推动了翻译质量评估的进步。

TASER:通过系统评估和推理进行翻译质量评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-02T00:00:00Z
思维的幻觉:通过问题复杂性视角理解推理模型的优势与局限性

近期的前沿语言模型引入了大型推理模型(LRMs),这些模型在回答前生成详细的思考过程。尽管在推理基准上有所提升,但其基本能力和局限性仍不明确。现有评估主要关注最终答案的准确性,忽视了推理过程的结构和质量。通过可控的难题环境研究发现,当复杂性超出一定范围时,LRMs的准确性会完全崩溃,且在高复杂性任务中表现不佳。

思维的幻觉:通过问题复杂性视角理解推理模型的优势与局限性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-29T00:00:00Z
苹果的《思维的幻觉》论文探讨大型推理模型的局限性

苹果机器学习研究发布论文《思维的幻觉》,探讨大型推理模型(LRMs)在解谜中的能力。研究发现,随着难度增加,LRMs在高复杂度下表现不佳,显示出模型的局限性。尽管LRMs在某些任务上优于标准LLMs,但在复杂问题上仍存在推理能力的根本限制。

苹果的《思维的幻觉》论文探讨大型推理模型的局限性

InfoQ
InfoQ · 2025-07-01T13:00:00Z
追求人工智能自主性忽视了短期代理收益

苹果的研究表明,大型推理模型在简单算法挑战中表现不佳,尤其在复杂情况下。尽管能解决简单问题,但在复杂情境下依赖替代策略。研究强调基础模型需针对特定问题进行实验和开发,以提升AI应用的有效性。

追求人工智能自主性忽视了短期代理收益

The New Stack
The New Stack · 2025-06-19T22:00:01Z
超越顿悟时刻:在大型语言模型中构建推理

大型推理模型(LRM)通过结构化强化学习提升推理能力,克服了依赖“顿悟时刻”的局限性。研究者提出了结合演绎、归纳和溯因推理的三阶段流程,显著提高了模型在数学和编程任务中的表现。

超越顿悟时刻:在大型语言模型中构建推理

实时互动网
实时互动网 · 2025-05-23T02:18:39Z
250多篇论文,上海AI Lab综述推理大模型高效思考

大型推理模型(LRMs)在推理任务中表现优异,但生成过程常常冗长低效,影响训练和应用。研究提出了提升思考效率的策略,如控制思考长度和动态资源分配,以优化性能与成本的平衡。未来研究将关注多模态推理、可信赖性和高效应用等方向。

250多篇论文,上海AI Lab综述推理大模型高效思考

机器之心
机器之心 · 2025-04-04T05:47:39Z

本研究分析了大型推理模型(LRMs)在深思熟虑推理与基础能力之间的权衡,指出提升推理能力可能降低模型的有效性和无害性,并增加推理成本。提出适应性推理方法以缓解这些问题,强调开发灵活的LRMs以满足特定任务需求的重要性。

Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z
攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

杜克大学的研究揭示大型推理模型(LRMs)在安全性方面的隐忧,透明的安全推理思维链可能被攻击者利用,导致模型拒绝高危请求的能力显著下降。H-CoT攻击方法使OpenAI等模型的拒绝率从98%降至2%,显示当前安全机制的脆弱性。作者建议对安全推理过程进行适当隐藏,以增强模型防御能力。

攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

机器之心
机器之心 · 2025-03-08T07:33:50Z

本研究探讨了大型推理模型(LRMs)在长链推理中的不安全输出问题,特别是在代码安全和信息传播方面。通过引入SafeChain安全训练数据集并对模型进行微调,研究表明该方法提高了模型的安全性,同时在六个推理基准上保持了良好的性能。

SafeChain: The Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码