小红花·文摘

华人学者Tianhao Wu提出的思考偏好优化（TPO）方法，通过生成和评估内部思考过程，提升大模型的回答质量。该方法无需额外标注数据，研究表明TPO在多项基准测试中显著提高了模型性能，适用于推理和非推理任务。