量子位 ·

新研究揭示DeepSeek弱点：频繁切换思路欠思考，最短答案往往就对

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

新研究表明，DeepSeek等推理大模型在处理复杂问题时，因频繁切换思路导致思维不足，影响答案的准确性。研究团队提出了“思路切换惩罚机制”，有效提升了模型的准确率并减少了无效思考。

🎯

❓

DeepSeek模型在处理复杂问题时频繁切换思路，导致思维不足，从而影响答案的准确性。

Underthinking是指推理大模型在思考过程中缺乏深入探索，导致错误答案的现象。

研究团队提出了“思路切换惩罚机制”（TIP），通过惩罚关键词降低思路切换概率，促使模型专注当前路径。

TIP机制在数学测试中提高了模型的准确率，同时降低了UT Score，减少了无效思考。

研究团队开发了Underthinking Metric，通过测量错误答案中的token使用效率来评估推理效率。

简洁解码方法通过并行运行模型选择tokens最少的答案，初步实验显示能提高准确率6%-7%。

🏷️

便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
牛津大学研究发现：大脑里组胺是决定记性好坏的幕后推手
牛津大学的研究表明，组胺是大脑中重要的神经递质，影响记忆形成和学习效率。提高组胺水平可以增强大脑在休息时的整理能力，延长学习后的记忆回味时间，并提升考试时...
研究：世界杯期间球迷最担心的技术难题
英国球迷正准备迎接夏季足球盛宴，深夜比赛将改变观赛方式。研究显示，80%球迷认为比赛时间影响观看直播，许多人计划调整观赛习惯。82%球迷希望第一时间看到进...
英国通信管理局（Ofcom）制定人工智能战略，相关研究正在进行中
英国通信管理局（Ofcom）发布了更新的人工智能战略，旨在支持通信行业采用人工智能并应对消费者风险。该战略强调技术中立和结果导向，推动创新并确保安全，包括...
Summer Game Fest Live 2026: The biggest news, trailers, and announcements
Geoff Keighley’s annual June celebration of games is here. Summer Game Fest L...
The crucial human component in computing and AI
The MIT Ethics of Computing Research Symposium brought together experts and r...