小红花·文摘 - 小红花技术领袖俱乐部

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

美团技术团队 ·

TASER：通过系统评估和推理进行翻译质量评估

TASER：通过系统评估和推理进行翻译质量评估

Apple Machine Learning Research ·

思维的幻觉：通过问题复杂性视角理解推理模型的优势与局限性

思维的幻觉：通过问题复杂性视角理解推理模型的优势与局限性

Apple Machine Learning Research ·

苹果的《思维的幻觉》论文探讨大型推理模型的局限性

苹果的《思维的幻觉》论文探讨大型推理模型的局限性

InfoQ ·

追求人工智能自主性忽视了短期代理收益

追求人工智能自主性忽视了短期代理收益

The New Stack ·

超越顿悟时刻：在大型语言模型中构建推理

超越顿悟时刻：在大型语言模型中构建推理

实时互动网 ·

250多篇论文，上海AI Lab综述推理大模型高效思考

250多篇论文，上海AI Lab综述推理大模型高效思考

机器之心 ·

本研究分析了大型推理模型（LRMs）在深思熟虑推理与基础能力之间的权衡，指出提升推理能力可能降低模型的有效性和无害性，并增加推理成本。提出适应性推理方法以缓解这些问题，强调开发灵活的LRMs以满足特定任务需求的重要性。

Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities

BriefGPT - AI 论文速递 ·

攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

机器之心 ·

本研究探讨了大型推理模型（LRMs）在长链推理中的不安全输出问题，特别是在代码安全和信息传播方面。通过引入SafeChain安全训练数据集并对模型进行微调，研究表明该方法提高了模型的安全性，同时在六个推理基准上保持了良好的性能。

SafeChain: The Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

BriefGPT - AI 论文速递 ·