新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
新研究表明,DeepSeek等推理大模型在处理复杂问题时,因频繁切换思路导致思维不足,影响答案的准确性。研究团队提出了“思路切换惩罚机制”,有效提升了模型的准确率并减少了无效思考。
🎯
关键要点
- 新研究揭示DeepSeek在处理复杂问题时频繁切换思路,导致思维不足,影响答案准确性。
- 研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要分析DeepSeek-R1和Qwen QwQ系列模型。
- 推理大模型在思考早期常走上正确路线,但因缺乏深入探索而失败,称为Underthinking(欠思考)。
- 实验显示,错误回答中思维切换频率增加,导致token消耗显著上升,平均错误回答比正确回答多消耗225%的token。
- 研究团队开发了Underthinking Metric,用于量化思维不足程度,评估推理效率。
- 提出“思路切换惩罚机制”(TIP),通过惩罚关键词降低思路切换概率,促使模型专注当前路径。
- TIP的应用在数学测试中提高了模型的准确率,同时降低了UT Score,减少了无效思考。
- UC Berkeley教授提出“简洁解码”方法,通过并行运行模型选择tokens最少的答案,初步实验显示提高了准确率。
➡️