DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

研究发现,DeepSeek R1在解决NPR周日谜题挑战时,常常选择放弃并给出错误答案。在595个问题中,R1有142次放弃,且有时会陷入无限思考状态。研究建议增加推理时机控制机制,以提升模型表现。

🎯

关键要点

  • DeepSeek R1在解决NPR周日谜题挑战时,常常选择放弃并给出错误答案。
  • 在595个问题中,R1有142次放弃,有时会陷入无限思考状态。
  • 研究建议增加推理时机控制机制,以提升模型表现。
  • NPR周日谜题挑战是一个广播智力游戏节目,谜题难度各异,通常只有一个或极少数正确答案。
  • 研究团队构建了一个包含近600个问题的数据集,测试了多个推理模型的表现。
  • 测试结果显示,OpenAI o1表现最佳,准确率为59%,DeepSeek R1准确率为35%。
  • DeepSeek R1在推理过程中会出现放弃和给出错误答案的现象。
  • 研究发现推理长度与准确率的关系,输出约10000个token后,继续推理对提升准确率的帮助不大。
  • 研究引发网友热议,部分网友认为测试内容过于侧重记忆回忆而非推理。
  • 模型在推理中经常包含正确答案,但未能意识到这一点。

延伸问答

DeepSeek R1在NPR周日谜题挑战中的表现如何?

DeepSeek R1在595个问题中有142次放弃,准确率为35%。

研究建议如何改善DeepSeek R1的推理能力?

研究建议增加推理时机控制机制,以提升模型表现。

NPR周日谜题挑战的特点是什么?

这些谜题通常涉及字母游戏,难度各异,通常只有一个或极少数正确答案。

在这项研究中,哪个模型表现最好?

OpenAI o1表现最佳,准确率为59%。

DeepSeek R1在推理过程中常见的错误是什么?

R1常常选择放弃,并给出错误答案,有时还会陷入无限思考状态。

研究团队如何构建测试数据集?

研究团队从NPR周日谜题挑战中整理出近600个问题,确保问题易于理解和验证。

➡️

继续阅读