量子位 ·

DeepSeek R1遇难题142次”I give up”，研究还称需增加推理时机控制机制

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

研究发现，DeepSeek R1在解决NPR周日谜题挑战时，常常选择放弃并给出错误答案。在595个问题中，R1有142次放弃，且有时会陷入无限思考状态。研究建议增加推理时机控制机制，以提升模型表现。

🎯

🔎

研究显示，DeepSeek R1在面对595个谜题时，有142次选择放弃，这一现象引发了对模型推理能力的质疑。放弃不仅影响了模型的准确率，也反映出其在处理复杂问题时的局限性。理解这一点有助于开发者在改进模型时，关注推理过程中的决策机制。

研究建议增加推理时机控制机制，以提升DeepSeek R1的表现。当前模型在接近输出限制时仍继续推理，导致效率低下。通过优化推理时机，模型可能更有效地利用资源，避免陷入无限思考状态，从而提高整体准确率。

测试结果显示，DeepSeek R1的准确率为35%，远低于OpenAI o1的59%。这种差异提示我们，模型在不同类型问题上的表现可能存在显著差异，开发者应关注模型的适用场景，以便更好地满足用户需求。

❓

DeepSeek R1在595个问题中有142次放弃，准确率为35%。

研究建议增加推理时机控制机制，以提升模型表现。

这些谜题通常涉及字母游戏，难度各异，通常只有一个或极少数正确答案。

OpenAI o1表现最佳，准确率为59%。

R1常常选择放弃，并给出错误答案，有时还会陷入无限思考状态。

研究团队从NPR周日谜题挑战中整理出近600个问题，确保问题易于理解和验证。

🏷️