机器之心 ·

从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

腾讯AI Lab与苏州大学、上海交通大学的研究发现长推理模型存在“思考不足”现象，表现为推理过程中频繁切换思路，导致准确性下降。研究提出了思考不足指标，并引入思路切换惩罚策略，以提升模型在复杂问题上的表现。

🎯

关键要点

腾讯AI Lab与苏州大学、上海交通大学的研究发现长推理模型存在“思考不足”现象。
长推理模型在推理过程中频繁切换思路，导致准确性下降。
研究团队提出了思考不足指标，并引入思路切换惩罚策略以提升模型表现。
长推理模型如OpenAI o1等因展现出类似人类的深度思考能力而备受关注。
思考不足表现为模型无法集中注意力深入思考，导致错误答案。
研究发现，错误回答中思路切换频繁，且生成的token数量显著增加。
思考不足的原因可能是缺乏深入理解或未能持续深入有希望的思路。
研究团队提出了评估框架以量化思考不足现象。
引入思路转换惩罚的解码策略（TIP）可以有效缓解思考不足现象。
TIP策略鼓励模型在深入探索每个推理路径后再考虑其他方案。
研究结果表明，TIP策略能在不进行模型微调的情况下提升准确率。
研究为长推理模型的推理效率提供了量化评估框架和实用解决方案。

🏷️

继续阅读

线段树与树状数组：区间问题的优雅武器
本文讨论了区间问题的高效解决方案，介绍了树状数组和线段树两种数据结构。树状数组适合点修改和区间查询，复杂度为O(log n)；线段树支持更复杂的操作如区间...
Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek
OpenMythos是一种新型的循环深度Transformer架构，采用MoE路由机制，通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下，其性能...
GNOME 修复了 H.264 格式的录制文件大小约为 VP8 格式的 18 倍的屏幕录制问题
2026年4月19日，GNOME Shell 修复了屏幕投屏/录制服务的问题，解决了使用 VA-API 录制 H.264 视频时文件大小膨胀至18倍且未提...
DeepSeek融资别急着冲！100亿美金估值最危险的是退出难！
DeepSeek正在进行3亿美元融资，估值达到100亿美元。融资原因包括人才流失、监管收紧及V4发布压力。尽管估值看似合理，投资者需警惕退出困难，可能面临...
荣耀推出「养虾本」，这才是 2026 年 AIPC 的答案
一只不用学、用得起、不怕用的龙虾#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
在苹果新 CEO 上任前，我们和他聊了聊 AI 与 iPhone
当年 Ternus 没有回答的问题，现在该他回答了#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题

内容提要

关键要点

标签

继续阅读