新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

新研究表明,DeepSeek等推理大模型在处理复杂问题时,因频繁切换思路导致思维不足,影响答案的准确性。研究团队提出了“思路切换惩罚机制”,有效提升了模型的准确率并减少了无效思考。

🎯

关键要点

  • 新研究揭示DeepSeek在处理复杂问题时频繁切换思路,导致思维不足,影响答案准确性。
  • 研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要分析DeepSeek-R1和Qwen QwQ系列模型。
  • 推理大模型在思考早期常走上正确路线,但因缺乏深入探索而失败,称为Underthinking(欠思考)。
  • 实验显示,错误回答中思维切换频率增加,导致token消耗显著上升,平均错误回答比正确回答多消耗225%的token。
  • 研究团队开发了Underthinking Metric,用于量化思维不足程度,评估推理效率。
  • 提出“思路切换惩罚机制”(TIP),通过惩罚关键词降低思路切换概率,促使模型专注当前路径。
  • TIP的应用在数学测试中提高了模型的准确率,同时降低了UT Score,减少了无效思考。
  • UC Berkeley教授提出“简洁解码”方法,通过并行运行模型选择tokens最少的答案,初步实验显示提高了准确率。
➡️

继续阅读