DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
研究发现,DeepSeek R1在解决NPR周日谜题挑战时,常常选择放弃并给出错误答案。在595个问题中,R1有142次放弃,且有时会陷入无限思考状态。研究建议增加推理时机控制机制,以提升模型表现。
🎯
关键要点
- DeepSeek R1在解决NPR周日谜题挑战时,常常选择放弃并给出错误答案。
- 在595个问题中,R1有142次放弃,有时会陷入无限思考状态。
- 研究建议增加推理时机控制机制,以提升模型表现。
- NPR周日谜题挑战是一个广播智力游戏节目,谜题难度各异,通常只有一个或极少数正确答案。
- 研究团队构建了一个包含近600个问题的数据集,测试了多个推理模型的表现。
- 测试结果显示,OpenAI o1表现最佳,准确率为59%,DeepSeek R1准确率为35%。
- DeepSeek R1在推理过程中会出现放弃和给出错误答案的现象。
- 研究发现推理长度与准确率的关系,输出约10000个token后,继续推理对提升准确率的帮助不大。
- 研究引发网友热议,部分网友认为测试内容过于侧重记忆回忆而非推理。
- 模型在推理中经常包含正确答案,但未能意识到这一点。
❓
延伸问答
DeepSeek R1在NPR周日谜题挑战中的表现如何?
DeepSeek R1在595个问题中有142次放弃,准确率为35%。
研究建议如何改善DeepSeek R1的推理能力?
研究建议增加推理时机控制机制,以提升模型表现。
NPR周日谜题挑战的特点是什么?
这些谜题通常涉及字母游戏,难度各异,通常只有一个或极少数正确答案。
在这项研究中,哪个模型表现最好?
OpenAI o1表现最佳,准确率为59%。
DeepSeek R1在推理过程中常见的错误是什么?
R1常常选择放弃,并给出错误答案,有时还会陷入无限思考状态。
研究团队如何构建测试数据集?
研究团队从NPR周日谜题挑战中整理出近600个问题,确保问题易于理解和验证。
➡️