小红花·文摘

研究发现，DeepSeek R1在解决NPR周日谜题挑战时，常常选择放弃并给出错误答案。在595个问题中，R1有142次放弃，且有时会陷入无限思考状态。研究建议增加推理时机控制机制，以提升模型表现。