量子位 ·

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

华人学者Tianhao Wu提出的思考偏好优化（TPO）方法，通过生成和评估内部思考过程，提升大模型的回答质量。该方法无需额外标注数据，研究表明TPO在多项基准测试中显著提高了模型性能，适用于推理和非推理任务。

🎯

关键要点

华人学者Tianhao Wu提出思考偏好优化（TPO）方法，提升大模型回答质量。
TPO方法无需额外标注数据，适用于推理和非推理任务。
TPO通过生成和评估内部思考过程，优化模型输出。
模型在回答前先生成思考过程，思考过程对用户不可见。
TPO引入长度控制机制，平衡回答质量和简洁性。
TPO在AlpacaEval和Arena-Hard基准测试中显著提升模型性能。
研究显示思考对非推理任务也有帮助，模型逐渐学会更高效的思考。
Tianhao Wu是加州大学伯克利分校博士生，研究重点是改善大语言模型的指令遵循和推理能力。

🏷️

继续阅读

埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
解读OpenAI与微软的重置：为何AWS可能会占据优势
OpenAI与微软的合作关系经历波折，最近宣布与亚马逊云服务（AWS）建立新合作，允许OpenAI的模型在AWS上运行。这一变化使OpenAI能够在多个云...
埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...
微软与OpenAI新协议的详细解析
微软与OpenAI达成新协议，允许OpenAI在所有云平台上提供服务，尽管与亚马逊的合作令微软不满。协议取消了与人工通用智能（AGI）相关的条款，使双方关...
OpenAI谈论不谈论妖精
OpenAI 近日解释了其模型中关于“妖精”和“怪物”的奇怪习惯。随着 GPT-5.1 的“书呆子”个性发布，这些生物的隐喻开始频繁出现。尽管在停止该个性...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

内容提要

关键要点

标签

继续阅读