量子位 ·

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

清华大学与英伟达、斯坦福联合提出NFT（隐式负向策略），通过负向数据训练正向模型，缩小监督学习与强化学习的差距。NFT在大模型中表现优异，显著提升数学能力，且不依赖外部数据。

🎯

关键要点

清华大学与英伟达、斯坦福联合提出NFT（隐式负向策略）
NFT通过负向数据训练正向模型，缩小监督学习与强化学习的差距
NFT在大模型中表现优异，显著提升数学能力
NFT损失函数梯度与GRPO在On-Policy条件下等价
NFT方法包括数据采样、隐式策略建模和策略优化
NFT在负向数据上训练正向策略，利用隐式负向策略
NFT与现有强化学习算法性能持平，部分场景下更具优势
NFT不依赖外部数据，能实现数学能力的大幅提升
NFT算法有利于模型熵增加，鼓励模型充分探索
NFT弥合了强化学习与监督学习的本质差异，暗示两者存在深层联系

❓

延伸问答

NFT（隐式负向策略）是什么？

NFT是一种新的监督学习方案，通过负向数据训练正向模型，缩小监督学习与强化学习的差距。

NFT如何提升数学能力？

NFT通过在负向数据上训练正向策略，显著提升模型的数学能力，且不依赖外部数据。

NFT与现有强化学习算法相比有什么优势？

NFT在部分场景下性能优于现有强化学习算法，尤其在大模型中，负向反馈的作用更加明显。

NFT的训练过程包括哪些步骤？

NFT的训练过程包括数据采样、隐式策略建模和策略优化三个步骤。

NFT如何弥合监督学习与强化学习的差异？

NFT通过隐式负向策略训练正向模型，表明两者之间存在深层联系，缩小了它们的性能差距。

NFT的损失函数与GRPO有什么关系？

NFT的损失函数梯度在On-Policy条件下与GRPO等价，表明两者在理论上的一致性。

🏷️

继续阅读

英伟达给黄仁勋儿女涨薪了！年薪百万美元，“凭能力而不是身份”
黄仁勋的子女Madison和Spencer在英伟达的薪资曝光，Madison年薪123.2万美元，Spencer为132万美元。英伟达强调两人的薪资评定与...
AWS在60%的软件需求中发现了错误。它的解决方案不是更多的人工智能，而是一个已有50年历史的逻辑引擎。
AWS推出的“需求分析”功能旨在消除软件开发中的需求错误，通过自然语言处理和自动推理技术，将模糊需求转化为精确的可测试标准，提高代码可靠性。该功能在医疗和...
Need is all you need：AI接手Coding后，程序员最值钱的能力只剩这一项?
Qoder 1.0版本升级为智能体自主开发工作台，强调全链路管理，从需求到交付。新功能包括独立的Quest窗口、跨项目多任务并行、专家团协作及自定义专家设...
蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强
蚂蚁百灵于5月15日开源思考模型Ring-2.6-1T，该模型支持可调推理强度，适用于多种任务，特别是在高频工作流和高难任务中表现优异。它采用异步强化学习...
腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；从图像序列到点云生成：LingBot-Map 在线 3D 重建流程
腾讯推出的Hy-MT1.5-1.8B-1.25bit是一款轻量级多语言翻译模型，支持33种语言和1056个翻译方向，翻译效果优于部分大型模型，参数仅为18亿。
【Rust日报】2026-05-17 hi_sparse_bitset v0.9.0 发布：不可变位集与真正的零拷贝
hi_sparse_bitset v0.9.0 发布：不可变位集与真正的零拷贝 hi_sparse_bitset 这次更新最值得看的点，是把“稀疏位集”继...