研究发现,DeepSeek R1在解决NPR周日谜题挑战时,常常选择放弃并给出错误答案。在595个问题中,R1有142次放弃,且有时会陷入无限思考状态。研究建议增加推理时机控制机制,以提升模型表现。
完成下面两步后,将自动完成登录并继续当前操作。