华人学者Tianhao Wu提出的思考偏好优化(TPO)方法,通过生成和评估内部思考过程,提升大模型的回答质量。该方法无需额外标注数据,研究表明TPO在多项基准测试中显著提高了模型性能,适用于推理和非推理任务。
完成下面两步后,将自动完成登录并继续当前操作。